DE102014118450A1 - Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext - Google Patents

Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext Download PDF

Info

Publication number
DE102014118450A1
DE102014118450A1 DE102014118450.5A DE102014118450A DE102014118450A1 DE 102014118450 A1 DE102014118450 A1 DE 102014118450A1 DE 102014118450 A DE102014118450 A DE 102014118450A DE 102014118450 A1 DE102014118450 A1 DE 102014118450A1
Authority
DE
Germany
Prior art keywords
vehicle
audio
noise
contexts
activities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102014118450.5A
Other languages
English (en)
Inventor
Ramji Srinivasan
Derrick Rea
David Trainor
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Technologies International Ltd
Original Assignee
Cambridge Silicon Radio Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cambridge Silicon Radio Ltd filed Critical Cambridge Silicon Radio Ltd
Publication of DE102014118450A1 publication Critical patent/DE102014118450A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)

Abstract

Verfahren zum Bestimmen von Kontexten für ein Fahrzeug, wobei jeder Kontext einem oder mehreren, mit dem Fahrzeug verknüpften Ereignissen entspricht, zum Beispiel, dass das Radio eingeschaltet oder ein Fenster geöffnet ist. Das Verfahren umfasst das Detektieren von Geräuschaktivitäten in einem im Fahrzeug erfassten Audiosignal und das Zuordnen von Kontext zum Fahrzeug auf Basis der detektierten Geräuschaktivitäten. Nicht-Audio-Daten, wie zum Beispiel der Betriebszustand eines Fahrzeugsystems oder einer -vorrichtung, werden verwendet, um das Zuordnen von Kontexten zu unterstützen.

Description

  • Erfindungsgebiet
  • Diese Erfindung bezieht sich darauf, einen Umgebungskontext durch Klassifikation von Geräuschen zu bestimmen, insbesondere von Geräuschen, die in einer Fahrgastzelle detektiert werden können.
  • Hintergrund der Erfindung
  • Die meisten fahrzeuginternen Aktivitäten erzeugen ein Geräusch. Das von jeder fahrzeuginternen Aktivität erzeugte Geräusch kann eine „Geräuschaktivität” genannt werden. Die von jeder fahrzeuginternen Aktivität erzeugte Geräuschaktivität ist einzigartig und kann als eine Signatur der entsprechenden fahrzeuginternen Aktivität betrachtet werden. Diese Geräuschaktivitäten sind entweder direkt mit fahrzeuginternen Ereignissen (z. B. Hupengeräusch, Blinkgebergeräusch, Sprache, Musik usw.) oder indirekt mit fahrzeuginternen Ereignissen (z. B. Fahrzeugmotorgeräusch, Wischerbetriebsgeräusch, Schaltgetriebebetriebsgeräusch, Reifengeräusch, Geräusch aufgrund von Wind, Geräusch aufgrund von Regen, Türbetätigungsgeräusch usw.) verknüpft.
  • Geräuschaktivitäten können die Leistungsfähigkeit der Audiosysteme des Fahrzeugs beeinträchtigen, z. B. eines Audioverbesserungssystems, eines Spracherkennungssystems oder eines Rauschunterdrückungssystems. Es wäre wünschenswert, Geräuschaktivitäten zu erfassen und zu analysieren, um die Leistungsfähigkeit der Audiosysteme des Fahrzeugs zu verbessern.
  • Kurzfassung der Erfindung
  • Ein erster Aspekt der Erfindung stellt ein Verfahren zum Bestimmen von Kontexten für ein Fahrzeug bereit, wobei das Verfahren umfasst:
    Verknüpfen einer Mehrzahl von Fahrzeugkontexten mit einer jeweiligen oder mehreren jeweiligen aus einer Mehrzahl von Geräuschaktivitäten; Detektieren eines Audiosignals im Fahrzeug;
    Detektieren wenigstens einer der Geräuschaktivitäten im Audiosignal; und
    Zuordnen wenigstens eines der Fahrzeugkontexte, der mit der detektierten, wenigstens einen der Geräuschaktivitäten verknüpft ist, zum Fahrzeug.
  • Ein zweiter Aspekt der Erfindung stellt ein System zum Bestimmen von Kontexten für ein Fahrzeug bereit, wobei das System umfasst:
    wenigstens ein Mikrophon zum Detektieren eines Audiosignals im Fahrzeug; und ein Kontextklassifikationssystem, das dazu ausgelegt ist, eine Mehrzahl von Fahrzeugkontexten mit einer jeweiligen oder mehreren jeweiligen aus einer Mehrzahl von Geräuschaktivitäten zu verknüpfen, wenigstens eine der Geräuschaktivitäten im Audiosignal zu detektieren und wenigstens einen der Fahrzeugkontexte, der mit der detektierten, wenigstens einen der Geräuschaktivitäten verknüpft ist, dem Fahrzeug zuzuordnen Ein dritter Aspekt der Erfindung stellt ein Fahrzeug-Audiosystem bereit, das ein System zum Bestimmen von Kontexten für ein Fahrzeug umfasst, wobei das Kontextbestimmungssystem umfasst:
    wenigstens ein Mikrophon zum Detektieren eines Audiosignals im Fahrzeug; und ein Kontextklassifikationssystem, das dazu ausgelegt ist, eine Mehrzahl von Fahrzeugkontexten mit einem jeweiligen oder mehreren jeweiligen aus einer Mehrzahl von Geräuschaktivitäten zu verknüpfen, wenigstens eine der Geräuschaktivitäten im Audiosignal zu detektieren und wenigstens einen der Fahrzeugkontexte, der mit der detektierten, wenigstens einen der Geräuschaktivitäten verknüpft ist, dem Fahrzeug zuzuordnen.
  • Bevorzugte Ausführungsformen der Erfindung ermöglichen das Erfassen und Analysieren von Geräuschaktivitäten zum Detektieren eines Bereichs fahrzeuginterner Aktivitäten, deren Detektieren unter Verwendung konventioneller Fahrzeugsensorsysteme schwierig oder aufwendig ist (z. B. Wind, Regenwetter, Notbremsung, Fahrzeugmotorgesundheit und so weiter). Zu von bevorzugten Ausführungsformen gebotenen, damit verbundenen Vorteilen zählen: das Bereitstellen eines unauffälligen Abtastmittels; Robustheit gegenüber der Position und Ausrichtung der Aktivität in Bezug auf die Sensoren; zu relativ geringen Kosten einsetzbar; die Befähigung zum gleichzeitigen Erfassen von Informationen mehrerer Aktivitäten; die Fähigkeit, ohne Weiteres zwischen Aktivitäten zu unterscheiden.
  • Das Identifizieren einzelner Geräuschaktivitäten erleichtert das Identifizieren der entsprechenden fahrzeuginternen Aktivität, die die Geräuschaktivität erzeugt hat. Dies gestattet wiederum die Verbesserung von fahrzeuginternen Audiosystemen, z. B. eines Audioplayers, eines Audioverbesserungssystems, eines Spracherkennungssystems, eines Rauschunterdrückungssystems und so weiter. Zum Beispiel ist das Detektieren des Vorhandenseins eines Hupengeräuschs im Audiosignal ein Ansatzpunkt, der von einem Audioverbesserungssystem zur Verbesserung seiner Leistungsfähigkeit verwendet werden kann und dadurch die Leistungsfähigkeit des Spracherkennungssystems verbessert.
  • Es kann vorteilhaft sein, einen breiteren, mit einer fahrzeuginternen Aktivität verknüpften Kontext zu bestimmen. Dies ist in realen fahrzeuginternen Szenarien darauf zurückzuführen, dass Geräuschaktivitäten miteinander auf Basis des Kontextes interagieren, und demzufolge weisen sie kontextbezogene Verknüpfungen auf. Im Allgemeinen kann Kontext als Information definiert werden, die die Situation einer Person, eines Platzes oder Objekts charakterisiert. Fahrzeuginterner Kontext kann als die Information betrachtet werden, die im Fahrzeug die Art der Umgebung oder von Ereignissen, die in dieser Umgebung stattgefunden haben, charakterisiert. Die folgenden Deskriptoren sind Beispiele für fahrzeuginterne Kontexte:
    • • Der Fahrer betreibt einen Mediaplayer
    • • Zwischen Insassen findet eine Unterhaltung statt
    • • Der Zustand einer fahrzeuginternen Vorrichtung hat sich geändert (z. B. Klingeln des Mobiltelefons)
    • • Der Fahrer führt bei regnerischen Bedingungen eine Notbremsung durch
    • • Der Fahrer oder die Insassen öffnen/schließen die Türen/Fenster unter Windbedingungen
  • In bevorzugten Ausführungsformen werden kontextbezogene Informationen verwendet, um Interaktionen des Nutzers mit fahrzeuginternen Vorrichtungen und Interaktionen und Operationen zwischen Vorrichtungen zu verbessern. Zum Beispiel können kontextbezogene Informationen, die angeben, dass ein Mobiltelefon in Betrieb ist, von (einem) fahrzeuginternen Audiosystem(en) verwendet werden, um die Lautstärke des Telefons anzupassen, und dadurch besseren Service für den Nutzer bereitstellen.
  • Ein Aspekt der Erfindung stellt ein Verfahren zum Klassifizieren von Kontexten in einem Fahrzeug durch Erfassen und Analysieren von Geräuschaktivitäten im Fahrzeug bereit. Das bevorzugte Verfahren segmentiert die resultierenden Audiosignale in Segmente, die jedes einen fahrzeuginternen Kontext darstellen; dann werden für jedes Audiosegment ein jeweiliger Kontext und einzelne, verknüpfte Geräuschaktivitäten identifiziert, die im Audiosegment vorliegen.
  • Bevorzugte Ausführungsformen stellen ein Verfahren zum Klassifizieren von fahrzeuginternen Kontexten anhand von fahrzeuginternen Audiosignalen bereit. Das Verfahren kann das Organisieren von Audio-Trainingsdaten in einen Satz von Geräuschmodellen umfassen, die eine Geräuschkomponente einer Geräuschmischung darstellen, die den fahrzeuginternen Kontext bildet. Das Verfahren kann das Organisieren von Audio-Trainingsdaten in einen Satz von Geräuschmodellen umfassen, die das Geräusch darstellen, das direkt von einem fahrzeuginternen Kontext gebildet wird. Vorzugsweise umfasst das Verfahren den Aufbau einer Verknüpfungstabelle, die eine Liste von fahrzeuginternen Kontexten enthält, wobei jeder Kontext auf eines oder mehrere Geräuschmodell(e) abgebildet wird. Optional bezieht das Verfahren das Organisieren der fahrzeuginternen Kontextdynamiken in n-Gramm-Modelle ein. Vorteilhaftweise umfasst das Verfahren das Nutzen von Daten aus den Fahrzeugsensorsystemen. Das bevorzugte Verfahren bezieht die gemeinsame Identifikation von Kontext und Geräuschaktivitäten aus einem Audiosegment ein. Vorzugsweise wird eine Liste von vergangenen Kontexten im Prozess für gemeinsame Identifikation verwendet. Vorzugsweise bezieht gemeinsame Identifikation Modellreduktion ein, indem vorteilhafterweise Daten aus den Fahrzeugsensorsystemen genutzt werden. Gemeinsame Identifikation kann das Verwenden einer probabilistischen Technik einbeziehen, um Matching Scores zwischen den Audiomerkmalen, die aus dem Audiosegment ermittelt werden, und den Modellsätzen, die in einer Kontextliste mit den Kontexten verknüpft sind, abzuleiten. Die probabilistische Technik vermutet in den kurzen Audiomerkmalen des Audiosegments vorzugsweise zeitliche Seltenheit. Die probabilistische Technik umfasst vorzugsweise eine n-Gramm-Kontextgewichtung, um den Modell-Score abzuleiten.
  • Andere bevorzugte Merkmale werden in den abhängigen Patentansprüchen, die hieran angefügt sind, vorgetragen.
  • Weitere vorteilhafte Aspekte der Erfindung werden sich für Durchschnittsfachleute bei Durchsicht der folgenden Beschreibung einer speziellen Ausführungsform und unter Bezugnahme auf die beiliegenden Zeichnungen ergeben.
  • Kurze Beschreibung der Zeichnungen
  • Es wird jetzt eine Ausführungsform der Erfindung beispielhaft und unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben:
  • 1 ist eine schematische Draufsicht auf ein Fahrzeug, das zur Verwendung mit Ausführungsformen der Erfindung geeignet ist;
  • 2 zeigt eine Darstellung eines fahrzeuginternen Audiosignals mit Segmenten, die sich aus der Detektion eines oder mehrerer Geräusche ergeben, die sich aus unterschiedlichen Geräuschaktivitäten ergeben;
  • 3 ist eine schematische Darstellung eines bevorzugten fahrzeuginternen Kontextklassifikationssystems, das einen Aspekt der vorliegenden Erfindung verkörpert;
  • 4 ist eine schematische Darstellung eines Audio-Segmentierungsprozesses, der zur Verwendung durch ein Audio-Segmentierungsmodul geeignet ist, das Teil des Systems aus 3 ist;
  • 5 ist eine schematische Darstellung eines Merkmalsextraktionsprozesses, der zur Verwendung durch ein Merkmalsextraktionsmodul geeignet ist, das Teil des Systems aus 3 ist;
  • 6 ist eine schematische Darstellung eines Geräuschquellen- und -aktivitäts-Modellierungsprozesses, der zur Verwendung durch das System aus 3 geeignet ist;
  • 7 ist eine schematische Darstellung eines Trainingsprozesses zum Generieren einer Verknüpfungstabelle zur Verwendung mit dem System aus 3;
  • 8 ist eine schematische Darstellung eines Modellierungsprozesses zum Erfassen von Kontextdynamiken, der zur Verwendung durch ein Kontextdynamik-Modellierungsmodul geeignet ist, das Teil des Systems aus 3 ist;
  • 9 ist eine schematische Darstellung eines Modellreduktionsprozesses, der zur Verwendung durch das bevorzugte Modul für den gemeinsamen Identifikationsalgorithmus geeignet ist; und
  • 10 ist eine schematische Darstellung eines Modell-Scoring-Prozesses, der zur Verwendung durch das bevorzugte Modul für den gemeinsamen Identifikationsalgorithmus geeignet ist.
  • Ausführliche Beschreibung der Zeichnungen
  • 1 veranschaulicht das Innere oder die Fahrgastzelle 11 eines Fahrzeugs 10, z. B. eines Autos. Das Fahrzeug 10 umfasst wenigstens eine Audioerfassungsvorrichtung, die typischerweise ein Mikrophon 12 umfasst. Zwei Mikrophone 12 werden in 1 beispielhaft gezeigt, in der Praxis kann jedoch eine beliebige Anzahl vorliegen. Die Mikrophone 12 sind in der Lage, Geräusche aus der Fahrgastzelle 11 zu detektieren, wozu im Inneren der Fahrgastzelle 11 generierte Geräusche (z. B. Sprache eines menschlichen Insassen 18) und Geräusche, die außerhalb der Fahrgastzelle generiert werden, aber im Inneren der Fahrgastzelle detektiert werden können (z. B. das Ertönen einer Hupe oder der Betrieb eines Windschutzscheibenwischers) zählen. Das Fahrzeug 10 umfasst wenigstens eine Audiowiedergabevorrichtung, die typischerweise einen Lautsprecher 14 umfasst. In 1 werden beispielhaft drei Lautsprecher 14 gezeigt, in der Praxis kann jedoch eine beliebige Anzahl vorliegen. Die Lautsprecher 14 sind in der Lage, Audiosignale in der Fahrgastzelle 11 wiederzugeben, insbesondere für die Insassen 18.
  • Das Fahrzeug 10 umfasst ein Audiosystem 20, das zusammen mit den Mikrophonen 12 und den Lautsprechern 14 dazu ausgelegt ist, Audiosignale aus der Fahrgastzelle 11 zu detektieren und Audiosignale in ihr wiederzugeben. Das Audiosystem 20 kann eine oder mehrere Audiowiedergabevorrichtungen 22 umfassen, um zu bewirken, dass Audiosignale über die Lautsprecher 14 wiedergegeben werden. Das Audiosystem 20 kann eine oder mehrere Spracherkennungsvorrichtungen 24 umfassen, um Sprache zu erkennen, die von den Insassen 18 ausgesprochen und von den Mikrophonen 12 detektiert wird. Das Audiosystem 20 kann eine oder mehrere Rauschunterdrückungsvorrichtungen 26 zum Verarbeiten von Audiosignalen, die von den Mikrophonen 12 detektiert werden, und/oder zum Wiedergeben durch die Lautsprecher 14 umfassen, um die Wirkungen von Signalrauschen zu reduzieren. Das Audiosystem 20 kann eine oder mehrere Rauschverbesserungsvorrichtungen 28 zum Verarbeiten von Audiosignalen, die von den Mikrophonen 12 detektiert werden, und/oder zum Wiedergeben durch die Lautsprecher 14 umfassen, um die Qualität des Audiosignals zu verbessern. Die Vorrichtungen 22, 24, 26, 28 (einzeln oder in einer beliebigen Kombination) können zusammen mit einer oder mehreren, Audiosignale nutzenden Vorrichtungen des Fahrzeugs betrieben werden oder Teil davon sein (z. B. Radio, CD-Player, Mediaplayer, Telefonsystem, Satellitennavigationssystem oder Sprachsteuerungssystem), wobei die Ausstattung als Teil oder als entsprechende Untersysteme des gesamten Fahrzeug-Audiosystems 20 betrachtet werden kann. Die Vorrichtungen 22, 24, 26, 28 können einzeln oder in einer beliebigen Kombination auf eine beliebige zweckmäßige Art und Weise implementiert werden, zum Beispiel als Hardware und/oder als Computer-Software, die von einem oder mehreren Datenprozessoren unterstützt wird, und sie können in Form und Funktion konventionell sein. In bevorzugten Ausführungsformen werden kontextbezogene Informationen, die sich auf das Fahrzeug beziehen, verwendet, um Interaktionen des Nutzers mit solchen fahrzeuginternen Audiovorrichtungen und Interaktionen und Operationen zwischen Vorrichtungen zu verbessern.
  • Das Audiosystem 20 umfasst ein Kontextklassifikationssystem (CCS, context classification system) 32, das einen Aspekt der vorliegenden Erfindung verkörpert. Das CCS 32 kann auf eine beliebige zweckmäßige Art und Weise implementiert werden, zum Beispiel als Hardware und/oder als Computer-Software, die von einem oder mehreren Datenprozessoren unterstützt wird. Im Betrieb bestimmt das CCS 32 einen oder mehrere Kontexte für die Fahrgastzelle 11 auf Basis eines oder mehrerer, von den Mikrophonen 12 detektierter Geräusche und/oder einer oder mehrerer Nicht-Audio-Eingaben. Um die Nicht-Audio-Eingaben zu generieren, umfasst das Fahrzeug 10 wenigstens eine elektrische Vorrichtung, die typischerweise einen Sensor 16 umfasst, der dazu ausgelegt ist, ein Signal zu erzeugen, das den Zustand eines entsprechenden Aspekts des Fahrzeugs 10 angibt, insbesondere von denjenigen, die das Geräusch in der Fahrgastzelle 11 beeinträchtigen können. Zum Beispiel kann jeder Sensor 16 dazu ausgelegt sein, den Betriebszustand eines beliebigen der folgenden Fahrzeugaspekte anzugeben: Betrieb des linken/rechten Blinkgebers; Windschutzscheibenwischerbetrieb; Mediaplayer an/aus; Fenster geöffnet/geschlossen; Regendetektion; Telefonbetrieb; Lüfterbetrieb; Schiebedach; Klimaanlagen-, Heizungsbetrieb, unter anderem. In 1 werden beispielhaft drei Sensoren 16 gezeigt, in der Praxis kann jedoch eine beliebige Anzahl vorliegen. Jeder Sensor 16 kann ein integrierter Teil eines Standardfahrzeugs sein oder kann speziell zum Implementieren der vorliegenden Erfindung bereitgestellt werden. Jeder Sensor 16 stellt sein Ausgangssignal dem Audiosystem 20 direkt oder indirekt bereit, zum Beispiel über eine Fahrzeugsteuereinheit (VCU, vehicle control unit) 30, z. B. die Motorsteuereinheit (ECU, engine control unit) des Fahrzeugs, was häufig der Fall ist, wenn der Sensor 16 eine Standardfahrzeugkomponente ist. Außerdem kann die VCU 30 selbst eine oder mehrere Nicht-Audio-Eingaben für das Audiosystem 20 bereitstellen, die den Zustand des entsprechenden Aspekts des Fahrzeugs 10 angeben.
  • 2 zeigt ein Beispiel für ein Audiosignal 40, das die Ausgabe eines beliebigen der Mikrophone 12 als Reaktion auf in der Fahrgastzelle 11 detektierte Geräusche sein kann. Das System 20 kann solche Signale zur Analyse in einer beliebigen zweckmäßigen Speichervorrichtung (nicht dargestellt) aufzeichnen, und so kann das Signal aus 2 auch eine fahrzeuginterne Audioaufzeichnung darstellen. Das Signal 40 umfasst Sequenzen relativ kurzer Audiosegmente 42. Jedes der Audiosegmente 42 kann eine Kombination von entsprechenden Audiosignalkomponenten umfassen, die der Detektion einer beliebigen oder mehrerer von mehreren Geräuschaktivitäten entsprechen. Die Audiosignalkomponenten können durch Überlagerung und/oder Konkatenation kombiniert werden. Jede Geräuschaktivität entspricht einer Aktivität, die Geräusche generiert, die von den Mikrophonen 12 detektiert werden können (die als fahrzeuginterne Geräusche bezeichnet werden). Beispielhaft sind die im Signal 40 dargestellten fahrzeuginternen Geräusche: Fahrzeugmotorgeräusch; Sprechen der Insassen; Musik; und Wischergeräusch. Ein entsprechender fahrzeuginterner Kontext kann abhängig von dem bzw. den Geräusch(en) jedem Audiosegment 42 zugeordnet werden. Demzufolge stellt jedes Audiosegment 42 einen fahrzeuginternen Kontext dar, der für die Dauer des Segments 42 anwendbar ist. Tabelle 1 stellt Beispiele bereit, die ein Abbilden zwischen Geräuschaktivitäten und dem entsprechenden fahrzeuginternen Kontext veranschaulichen.
  • Figure DE102014118450A1_0002
    Tabelle 1: Beispielhaftes Abbilden zwischen Geräuschaktivitäten und fahrzeuginternem Kontext
  • Das CCS 32 bestimmt oder klassifiziert Kontext anhand der fahrzeuginternen Audiosignale, die von einem oder mehreren der Mikrophone 12 erfasst werden, wie mit dem Audiosignal 40 beispielhaft gezeigt wird. In bevorzugten Ausführungsformen wird dies erreicht durch: 1) Segmentieren des Audiosignals 40 in kleinere Audiosegmente 42, die jedes einen entsprechenden fahrzeuginternen Kontext darstellen; und 2) gemeinsames Identifizieren des fahrzeuginternen Kontextes und der Geräuschaktivitäten, die in jedem Audiosegment vorliegen.
  • 3 veranschaulicht eine bevorzugte Ausführungsform des CCS 32. Das fahrzeuginterne Audiosignal 40 wird in das CCS 32 eingegeben. Typischerweise werden auch Nicht-Audio-Daten 44 aus, oder abgeleitet von, den Ausgaben eines oder mehrerer Sensoren 16 und/oder andere Fahrzeugdaten aus der VCU 30 in das CCS 32 eingegeben. Die Daten 44 können zum Beispiel von der VCU 30 oder direkt vom maßgeblichen Sensor 16 bereitgestellt werden, wie es zweckmäßig ist. Das CCS 32 erzeugt entsprechende Kontextdaten 46, die zweckmäßigerweise einen Satz Audiosegmente 42 umfassen, wobei jedes Segment 42 mit einem entsprechenden fahrzeuginternen Kontext 43 und vorzugsweise auch mit einer oder mehreren entsprechenden, im entsprechenden Audiosegment 42 detektierten Geräuschaktivitäten 45 verknüpft wird.
  • Das bevorzugte CCS 32 umfasst ein Audiosegmentierungsmodul 48, das das eingegebene Audiosignal 40 in Audiosegmente 42 von geringerer Länge segmentiert, wie in 4 veranschaulicht wird. Typischerweise bezieht die Segmentierung eine Zeitaufteilung des Signals 40 ein. Zweckmäßigerweise wird das Audiosignal 40 vor der Segmentierung in einem Pufferspeicher oder in einer anderen Speichereinrichtung (nicht dargestellt) gespeichert. Beispielhaft können ungefähr zwischen 10 und 60 Sekunden des Audiosignals 40 zu diesem Zweck gepuffert werden. Beispielhaft kann das Audiosignal 40 in Audiosegmente fester Länge von ungefähr 3 bis 4 Sekunden segmentiert werden. Jedes Audiosegment 42 stellt einen entsprechenden kurzzeitigen fahrzeuginternen Kontext dar.
  • Vorzugsweise werden die Audiosegmente 42 analysiert, um zu bestimmen, ob sie Audiogehalt aufweisen, der zur Verwendung bei der Kontextbestimmung geeignet ist, z. B. ob sie identifizierbare Geräusch(e) enthalten. Dies kann unter Verwendung beliebiger zweckmäßiger konventioneller Technik(en) durchgeführt werden, zum Beispiel Bayesscher Informationskriterien, modellbasierter Segmentierung und so weiter. Diese Analyse wird zweckmäßigerweise vom Audiosegmentierungsmodul 48 durchgeführt.
  • Das Audiosegmentierungsmodul 48 kann auch die Nicht-Audio-Daten 44 verwenden, um die Audiosegmentierung zu verbessern. Zum Beispiel können die Nicht-Audio-Daten 44 während des Segmentierungsprozesses zum Bestimmen der Grenzen für die Audiosegmente 42 verwendet werden.
  • Das bevorzugte CCS 32 umfasst auch das Merkmalsextraktionsmodul 50, das dazu ausgelegt ist, Merkmalsextraktion auf den Audiosegmenten 42 durchzuführen. Daraus ergibt sich, dass jedes Segment 42 als mehrere Audiomerkmale dargestellt wird, wie in 5 veranschaulicht wird. Merkmalsextraktion bezieht eine Analyse des Zeit-Frequenz-Gehalts des Segments 42 ein, wobei die resultierenden Audiomerkmale (üblicherweise als Merkmalsvektoren bekannt) eine Beschreibung des Frequenzgehalts bereitstellen. Um Merkmalsextraktion durchzuführen, wird typischerweise zunächst jedes Audiosegment 42 in relativ kurze Zeitrahmen aufgeteilt. Zum Beispiel kann jeder Rahmen ungefähr 20 ms lang sein, mit einer Rahmendauer von ungefähr 10 ms. Dann kann Merkmalsextraktion durchgeführt werden, um jeden Rahmen als einen Merkmalsvektor darzustellen, wobei jeder Merkmalsvektor typischerweise einen Zahlensatz umfasst, der den Audiogehalt des entsprechenden Rahmens darstellt. Beispielhaft kann Merkmalsextraktion das Durchführen von Mel-Frequenz-Cepstrum-Analyse der Rahmen einbeziehen, um einen entsprechenden Mel-Frequenz-Cepstrum-Koeffizienten-(MFCC-)Vektor zu erzeugen. Allerdings kann vom Merkmalextraktionsmodul 50 eine beliebige zweckmäßige, konventionelle Merkmaldarstellung für Audiosignale (zum Beispiel Log-Spektral-Vektoren, lineare Vorhersage-Koeffizienten, lineare Vorhersage-Cepstral-Koeffizienten und so weiter) verwendet werden.
  • Das bevorzugte CCS 32 umfasst ein Geräuschaktivitätsmodul 52. Dieses Modul 52 umfasst mehrere mathematische Geräuschaktivitätsmodelle 53, die vom CCS 32 verwendet werden, um den Audiogehalt der Audiosegmente 42 zu identifizieren. Jedes Modell kann ein spezielles Geräusch identifizieren (z. B. Wischerbetrieb) oder einen speziellen Geräuschtyp (z. B. Sprache oder Musik) oder eine spezielle Geräuschquelle (z. B. eine Hupe) oder eine bekannte Kombination von Geräuschen, Geräuschtypen und/oder Geräuschquellen. Zum Beispiel umfasst in der bevorzugten Ausführungsform jedes Modell eine mathematische Darstellung des einen oder anderen der Folgenden: das stationäre Geräusch aus einer einzigen Geräuschquelle (z. B. ein Hupenklang); eine einzelne spezielle Geräuschaktivität einer Geräuschquelle (z. B. Musik aus einem Radio); oder eine Mischung von zwei oder mehr speziellen Geräuschaktivitäten aus mehreren Geräuschquellen (z. B. Musik aus einem Radio kombiniert mit Sprache eines Insassen). Vorteilhafterweise sind die Geräuschaktivitätsmodelle 53 insofern elementar, als dass sie beliebig miteinander kombiniert werden können, um entsprechende fahrzeuginterne Kontexte am besten darzustellen. In jedem Fall kann jedes Modell direkt oder indirekt mit einer speziellen fahrzeuginternen Geräuschaktivität oder einer Kombination aus fahrzeuginternen Geräuschaktivitäten verknüpft werden. Das CCS 32 kann eine beliebige oder mehrere Geräuschaktivitäten 45 jedem Audiosegment 42, abhängig vom Audiogehalt des Segments 42, zuordnen.
  • Die Geräuschaktivitätsmodelle 53 können aus einem Trainingsprozess bezogen werden, wie zum Beispiel in 6 veranschaulicht wird. Audio-Trainingsdaten 54 können auf eine beliebige zweckmäßige Art und Weise bezogen werden, zum Beispiel aus einer vorhandenen Geräuschmodell-Datenbank (nicht dargestellt) oder durch Vorabaufzeichnen der interessierenden Geräusche. Die Trainingsdaten 54 sind nach Geräuschquellen- und Geräuschaktivitätsklassen organisiert, wobei jeder Klasse eine entsprechende fahrzeuginterne Geräuschaktivität oder eine Kombination von fahrzeuginternen Geräuschaktivitäten entspricht (z. B. Fahrzeugmotor an, Musik spielt, Sprache und Motor an, Wischer an, Blinkgeber an, Blinkgeber und Motor an und so weiter). Die Trainingsdaten jeder Klasse werden einem beliebigen geeigneten Modellierprozess M unterzogen, um die entsprechenden Modelle 53 zu erbringen. Vorteilhafterweise wird das Modellieren auf eine Art und Weise durchgeführt, die kompatibel zur vom Merkmalsextraktionsmodul 50 durchgeführten Merkmalsextraktionsanalyse ist, um den Vergleich der vom Merkmalsextraktionsmodul 50 erzeugten Merkmalsvektoren mit den Geräuschaktivitätsmodellen 53 zu erleichtern, d. h. die Modelle 53 werden auf eine Art und Weise definiert, die ihren Vergleich mit den entsprechenden, vom Merkmalsextraktionsmodul 50 bereitgestellten Definitionen der Audiosegmente 42 erleichtert. Im vorliegenden Beispiel bezieht dies das Modellieren der kurzzeitigen Merkmale der Audio-Trainingsdaten ein (die unter Verwendung des Merkmalsextraktionselements bezogen werden). Beispielhaft kann lediglich eine Technik der Gaussian Mixture Modellierung (GMM) verwendet werden, um die Wahrscheinlichkeitsverteilungen der Mel-Frequenz-Cepstrum-Koeffizientenmerkmale der Trainingsdaten zu modellieren.
  • Das bevorzugte CCS 32 führt eine Verknüpfungstabelle 56, die mehrere fahrzeuginterne Kontexte 43 mit einem jeweiligen oder mehreren jeweiligen Geräuschaktivitätsmodellen 53 verknüpft, d. h. mit einem einzigen Geräuschaktivitätsmodell 53 oder einer Kombination von Geräuschaktivitätsmodellen 53. Unter Bezugnahme auf 3 können zum Beispiel die Modelle 53 für die Geräuschaktivitäten „Fahrzeugmotor an” und „Fahrzeugblinkgeber an” in Kombination mit dem Kontext „Fahrzeug wendet” verknüpft werden, während das Modell 53 für die Geräuschaktivität „Musik” für sich selbst mit dem Kontext „Mediaplayer an” verknüpft werden kann. Es ist anzumerken, dass ein Kontext 43, der zwei oder mehr Geräuschaktivitäten darstellt, auf ein einziges Geräuschaktivitätsmodell 53 abgebildet werden kann, falls ein solches Modell verfügbar ist. Falls es zum Beispiel ein einziges Modell 53 gibt, das die kombinierten Geräuschaktivitäten „Fahrzeugmotor an” und „Fahrzeugblinkgeber an” darstellt, dann kann der Kontext „Fahrzeug wendet” mit dem einzigen Modell 53 verknüpft werden. Abhängig davon, welche Modelle verfügbar sind, kann die Verknüpfungstabelle 56 demzufolge mehr als einen Eintrag für jeden Kontext enthalten. Die Verknüpfungstabelle 56 kann in irgendwelchen zweckmäßigen Speichermitteln geführt werden und kann auf eine beliebige konventionelle Art und Weise der Datenverknüpfung implementiert werden.
  • Unter Bezugnahme auf 7 kann die Verknüpfungstabelle 56 angelegt werden, indem die Geräuschquellenmodelle 53 und die kontextverknüpften Audio-Trainingsdaten 58 einem Modellierprozess M unterzogen werden, der dazu ausgelegt ist, für jedes angemerkte Audiosegment der Trainingsdaten ein Modell oder einen Modellsatz zu finden, der die Übereinstimmung zwischen den ausgewählten Modellen und dem Audiosegment maximiert. Alternativ kann die Tabelle 56 manuell, auf Basis von menschlichem Wissen über die fahrzeuginternen Kontexte 43 und der verknüpften Geräuschaktivitätsmodelle 53 angelegt werden.
  • In bevorzugten Ausführungsformen verwendet das CCS 32 Kontextdynamikmodelle 60, um die Zuordnung von Kontexten 43 zu Audiosegmenten 42 unter Verwendung eines statistischen Modellierungsprozesses zu analysieren. Vorzugsweise wird ein statistischer n-Gramm-Modellierungsprozess zum Erzeugen des Modells 60 verwendet. Lediglich beispielhaft kann ein Unigramm-(1-Gramm-)Modell verwendet werden. Im Allgemeinen stellt ein n-Gramm-Modell die Dynamiken (zeitliche Entwicklung) einer Sequenz dar, indem die Statistiken einer zusammenhängenden Sequenz von n Elementen aus einer gegebenen Sequenz erfasst werden. In der bevorzugten Ausführungsform wird ein entsprechendes n-Gramm-Modell 60, das die Dynamiken jedes fahrzeuginternen Kontextes 43 darstellt, bereitgestellt. Die n-Gramm-Modelle 60 können aus einem Trainingsprozess bezogen werden, der in 8 veranschaulicht wird. Das Modellieren eines n-Gramm-Modells 60 für einen Kontext erfordert typischerweise Kontext-Trainingsdaten 64, die eine relativ große Anzahl von unterschiedlichen Datensequenzen enthalten, die in dem betrachteten Kontext realistisch erzeugt werden. Je nach dem Wert von n kann die n-Gramm-Modellierung die Schwankung in zugeordneten Kontexten für variable Zeiträume nachverfolgen. Die Kontextdynamikmodellierung gestattet, dass die Wahrscheinlichkeit der zugeordneten Kontexte zum Beurteilen korrekt ist, was die Genauigkeit des Entscheidungsfindungsprozesses verbessert.
  • Das bevorzugte CCS 32 umfasst einen Kontext-Verlaufspuffer 66 zum Speichern einer Sequenz von identifizierten Kontexten, die aus einem Modul 68 für gemeinsame Identifikation typischerweise in einen First-in-First-out (FIFO) Puffer (nicht dargestellt) ausgegeben werden, und führt die identifizierten Kontexte zurück in das Modul 68 für gemeinsame Identifikation. Ein entsprechender Kontext wird für jedes aufeinander folgende Audiosegment 42 identifiziert. Die Anzahl der identifizierten Kontexte, die im Puffer 66 gespeichert werden sollen, hängt vom Wert von „n” im n-Gramm-Modell ab. Die im Puffer 66 gespeicherten Informationen können gemeinsam mit dem n-Gramm-Modell verwendet werden, um die Dynamiken des für anschließende Audiosegmente 42 identifizierten Kontextes nachzuverfolgen.
  • Das Modul 68 für gemeinsame Identifikation generiert einen fahrzeuginternen Kontext zusammen mit einer oder mehreren verknüpften Geräuschaktivitäten für jedes Audiosegment 42. In der bevorzugten Ausführungsform nimmt das Modul 68 für die gemeinsame Identifikation die folgenden Eingaben auf: die extrahierten Merkmale aus dem Merkmalsextraktionsmodul 50; die Geräuschaktivitätsmodelle 53; die Verknüpfungstabelle 56; die n-Gramm-Kontextmodelle 60; und die Sequenz von identifizierten Kontexten für Audiosegmente, die dem aktuellen Audiosegment unmittelbar vorausgehen (aus dem Kontextverlaufspuffer 66). Das bevorzugte Modul 68 generiert zwei Ausgaben für jedes Audiosegment 42: den identifizierten fahrzeuginternen Kontext 43; und die einzelnen identifizierten Geräuschaktivitäten 45.
  • In der bevorzugten Ausführungsform wendet das Modul 68 für gemeinsame Identifikation auf jedes Segment 42 sequentielle Schritte an, und zwar Modellreduktion und Modell-Scoring, um die Ausgaben 43, 45 zu generieren. Der bevorzugte Modellreduktionsschritt wird in 9 veranschaulicht. Die Verknüpfungstabelle 56 stellt einen Satz von Kontexten 43 zusammen mit ihren verknüpften Geräuschaktivitätsmodellen 53 bereit. Modellreduktion bezieht das Erzeugen einer temporären Liste 70 ein, die eine Untermenge von bekannten Kontexten 43 umfasst, die während des anschließenden Modell-Scoring-Schritts für das aktuelle Audiosegment 42 in Betracht gezogen werden sollen. Anfänglich enthält die Liste 70 alle Kontexte 43 aus der Verknüpfungstabelle 56. Beim Fehlen irgendwelcher Nicht-Audio-Daten 44 werden keine weiteren Maßnahmen ergriffen, und alle bekannten Kontexte 43 werden während des Modell-Scoring-Schritts ausgewertet. Vorzugsweise werden allerdings Nicht-Audio-Daten als eine Eingabe für den Modellreduktionsschritt bereitgestellt. Für jedes Audiosegment 42 werden vorteilhafterweise die Nicht-Audio-Daten 44 verwendet, die aus den fahrzeuginternen Sensorsystemen bezogen werden (z. B. Betriebszustand von Fahrzeug, Blinkgebern, Wischern, Mediaplayer usw.), um unmögliche oder unwahrscheinliche Kontexte 43 aus der temporären Kontextliste 70 zu eliminieren. Dies kann erreicht werden, indem das Modul 68 veranlasst wird, einen Satz von Regeln anzuwenden, der die gegenseitige Kompatibilität von Kontexten 43 und Nicht-Audio-Daten 44 mit den entsprechenden Nicht-Audio-Daten 44 für jedes Segment 42 angibt, und jeden Kontext 43 aus der temporären Liste 70 zu eliminieren, der als inkompatibel mit den Daten 44 angesehen wird. Dies reduziert die Komplexität des anschließenden Modell-Scoring-Schritts für das aktuelle Audiosegment 42.
  • Optional verwendet das Modul 68 die Kontextdynamikmodelle 60, um Kontextdynamikmodellierung, in diesem Beispiel n-Gramm-Modellierung, durchzuführen, um die Zuordnung von Kontexten 43 zu Audiosegmenten 42 zu analysieren. Dies verbessert den Modellreduktionsprozess durch Eliminieren von inkompatiblen Kontexten 43 aus der Liste 70 für das aktuelle Segment 42 auf Basis der zeitlichen Entwicklung von Daten über die vorhergehenden n – 1 Segmente.
  • 10 veranschaulicht den bevorzugten Modell-Scoring-Schritt. Die hauptsächliche Funktion des Modell-Scoring-Schritts ist es, für jedes Audiosegment 42 die Ausgabe des Merkmalsextraktionsmoduls 50 mit dem, oder jedem, mit jedem Kontext 43 in der temporären Kontextliste 70 verknüpften entsprechenden Geräuschaktivitätsmodell 53 zu vergleichen. Für jeden Kontext 43 in der temporären Kontextliste 70 berechnet das Modul 68 einen Matching Score zwischen dem bzw. den entsprechenden Geräuschaktivitätsmodell(en) 53 und dem entsprechenden extrahierten Audiomerkmal für das Segment 42. Der Kontext 43, der als der mit dem beste Matching Score angesehen wird, kann dem aktuellen Segment 42 zugeordnet werden und als die Ausgabe des Moduls 68 zusammen mit der bzw. den verknüpften Geräuschaktivität(en) 45 bereitgestellt werden. Beispielhaft kann ein probabilistischer statistischer Ansatz verwendet werden, um die Matching Scores zu finden. Probabilitäts-Scores können von dem vom Dynamikmodell 60 verwendeten, entsprechenden n-Gramm-Kontext und Inhalten des Kontextverlaufspuffers 66 gewichtet werden, um die Leistungsfähigkeit der Kontext- und Geräuschaktivitätsidentifikation zu verbessern. In der bevorzugten Ausführungsform wird während des Modell-Scoring-Schritts in den kurzen Audiomerkmalen jedes Audiosegments 42 zeitliche Seltenheit angenommen. Dies bedeutet, dass angenommen wird, dass jeder Rahmen des Audiosegments 42 (wie er vom Extraktionsmodul 50 erzeugt wird) zu einem einzigen Geräuschaktivitätsmodell 53 passt.
  • Nachstehend wird Pseudo-Code für eine beispielhafte Implementierung des Modell-Scoring-Prozesses angegeben. Gegeben:
    Figure DE102014118450A1_0003
  • Die Erfindung ist nicht auf die hier beschriebenen Ausführungsform(en) beschränkt, sondern kann abgeändert oder modifiziert werden, ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen.

Claims (38)

  1. Verfahren zum Bestimmen von Kontexten für ein Fahrzeug, wobei das Verfahren umfasst: Verknüpfen einer Mehrzahl von Fahrzeugkontexten mit einer jeweiligen oder mehreren jeweiligen aus einer Mehrzahl von Geräuschaktivitäten; Detektieren eines Audiosignals im Fahrzeug; Detektieren wenigstens einer der Geräuschaktivitäten im Audiosignal; und Zuordnen wenigstens eines der Fahrzeugkontexte, der mit der detektierten, wenigstens einen der Geräuschaktivitäten verknüpft ist, zum Fahrzeug.
  2. Verfahren nach Anspruch 1, wobei das Zuordnen das Verwenden von Nicht-Audio-Fahrzeugdaten beim Bestimmen des wenigstens einen der Fahrzeugkontexte einbezieht.
  3. Verfahren nach Anspruch 2, wobei die Nicht-Audio-Fahrzeugdaten Daten umfassen, die den Betriebszustand eines oder mehrerer der Systeme des Fahrzeugs oder der Vorrichtungen des Fahrzeugs angeben.
  4. Verfahren nach Anspruch 2 oder 3, das Beziehen der Nicht-Audio-Daten aus wenigstens einem Fahrzeugsensor umfasst.
  5. Verfahren nach Anspruch 4, wobei der wenigstens eine Sensor dazu ausgelegt ist, den Zustand eines beliebigen oder mehrerer Aspekte des Fahrzeugs zu detektieren, zum Beispiel eines beliebigen oder mehrerer von einem Frontscheibenwischer, einem Blinker, einem Mediaplayer, einem Navigationssystem, einem Fenster, einem Schiebedach, einem Regensensor, einem Lüfter, einer Klimaanlage oder einem Telefonsystem.
  6. Verfahren nach einem der Ansprüche 2 bis 5, das Beziehen der Nicht-Audio-Daten aus einem Fahrzeugsteuerungssystem umfasst.
  7. Verfahren nach Anspruch 6, das Beziehen der Nicht-Audio-Daten aus einer Steuereinheit des Fahrzeugs umfasst, zum Beispiel aus der Motorsteuereinheit.
  8. Verfahren nach einem vorhergehenden Anspruch, das Detektieren des Audiosignals unter Verwendung wenigstens eines Mikrophons umfasst.
  9. Verfahren nach Anspruch 8, wobei das Mikrophon so im Fahrzeug integriert ist, dass das Audiosignal vom wenigstens einen Mikrophon detektierten Geräuschen in der Fahrgastzelle des Fahrzeugs entspricht.
  10. Verfahren nach einem vorhergehenden Anspruch, das Segmentieren des Audiosignals in Audiosegmente umfasst, wobei das Detektieren das Detektieren einer jeweiligen, wenigstens einen der Geräuschaktivitäten in jedem Audiosegment einbezieht; und das Zuordnen das Zuordnen des jeweiligen, wenigstens einen der Fahrzeugkontexte in Bezug auf jedes Audiosegment einbezieht.
  11. Verfahren nach Anspruch 10, das Verwenden von Nicht-Audio-Fahrzeugdaten während des Segmentierungsprozesses beim Bestimmen der Grenzen für die Audiosegmente 42 umfasst.
  12. Verfahren nach Anspruch 10 oder 11, das Durchführen von Merkmalsextraktion an den Audiosegmenten umfasst, um eine entsprechende, frequenzbasierte Definition jedes Audiosegments bereitzustellen.
  13. Verfahren nach einem vorhergehenden Anspruch, das Bereitstellen einer Mehrzahl von Geräuschaktivitätsmodellen umfasst, wobei jedes Modell eine mathematische Darstellung einer jeweiligen oder mehrerer jeweiliger der Geräuschaktivitäten umfasst und wobei das Detektieren wenigstens einer der Geräuschaktivitäten im Audiosignal Vergleichen des Audiosignals mit wenigstens einigen der Geräuschaktivitätsmodelle einbezieht.
  14. Verfahren nach einem vorhergehenden Anspruch, wobei jede der Geräuschaktivitäten entweder ein spezielles Geräusch oder einen speziellen Geräuschtyp oder eine spezielle Geräuschquelle oder eine beliebige Kombination von einem oder mehreren Geräuschen, einem oder mehreren Geräuschtypen und/oder einer oder mehreren Geräuschquellen umfasst.
  15. Verfahren nach Anspruch 13, wobei das Verknüpfen mehrerer Fahrzeugkontexte mit einer jeweiligen oder mehreren jeweiligen der Geräuschaktivitäten das Verknüpfen jedes der mehreren Fahrzeugkontexte mit einem jeweiligen oder mehreren jeweiligen der Geräuschaktivitätsmodelle, die der einen jeweiligen oder mehreren jeweiligen der Geräuschaktivitäten entsprechen, einbezieht.
  16. Verfahren nach einem der Ansprüche 2 bis 15, wobei das Verwenden von Nicht-Audio-Fahrzeugdaten beim Bestimmen des wenigstens einen der Fahrzeugkontexte das Verwenden der Nicht-Audio-Fahrzeugdaten zum Bestimmen der Kompatibilität wenigstens einiger der Fahrzeugkontexte mit dem detektierten Audiosignal einbezieht.
  17. Verfahren nach einem der Ansprüche 13 bis 16, wobei das Zuordnen das Verwenden von Nicht-Audio-Fahrzeugdaten zum Bestimmen der Kompatibilität wenigstens einiger der Fahrzeugkontexte mit dem detektierten Audiosignal einbezieht und wobei das Vergleichen des Audiosignals mit wenigstens einigen der Geräuschaktivitätsmodelle das Vergleichen nur von Geräuschaktivitätsmodellen einbezieht, die mit den als kompatibel mit dem detektierten Audiosignal bestimmten Fahrzeugkontexten verknüpft sind.
  18. Verfahren nach einem der Ansprüche 10 bis 17, wobei das Zuordnen das Verwenden von Nicht-Audio-Fahrzeugdaten zum Bestimmen der Kompatibilität wenigstens einiger der Fahrzeugkontexte mit jedem Audiosegment einbezieht und wobei das Detektieren einer jeweiligen, wenigstens einen der Geräuschaktivitäten in jedem Audiosegment das Detektieren nur von Geräuschaktivitäten einbezieht, die mit den Fahrzeugkontexten verknüpft sind, die als kompatibel mit dem detektierten Audiosegment bestimmt worden sind.
  19. Verfahren nach einem der Ansprüche 10 bis 18, wobei das Zuordnen das Verwenden von Nicht-Audio-Fahrzeugdaten zum Bestimmen der Kompatibilität wenigstens einiger der Fahrzeugkontexte mit jedem Audiosegment einbezieht und wobei das Zuordnen der entsprechenden, wenigstens einen der Fahrzeugkontexte in Bezug auf jedes Audiosegment das Zuordnen nur von Geräuschaktivitäten einbezieht, die mit den Fahrzeugkontexten verknüpft sind, die als kompatibel mit dem detektierten Audiosegment bestimmt worden sind.
  20. Verfahren nach einem der Ansprüche 10 bis 19, das Bereitstellen mehrerer Geräuschaktivitätsmodelle umfasst, wobei jedes Modell eine mathematische Darstellung einer jeweiligen oder mehrerer jeweiliger der Geräuschaktivitäten umfasst und wobei das Detektieren wenigstens einer der Geräuschaktivitäten im Audiosignal das Vergleichen des Audiosegments mit wenigstens einigen der Geräuschaktivitätsmodelle einbezieht.
  21. Verfahren nach einem der Ansprüche 13 bis 20, wobei das Vergleichen des Audiosignals mit wenigstens einigen der Geräuschaktivitätsmodelle das Berechnen eines entsprechenden Matching Score für wenigstens einige der Geräuschaktivitätsmodelle und das Vergleichen der Matching Scores einbezieht und wobei das Detektieren wenigstens einer der Geräuschaktivitäten im Audiosignal das Bestimmen einbezieht, welche der Geräuschaktivitäten auf Basis des Vergleichs der Matching Scores detektiert wird.
  22. Verfahren nach Anspruch 21, das Segmentieren des Audiosignals in Audiosegmente umfasst, wobei das Detektieren das Detektieren einer jeweiligen, wenigstens einen der Geräuschaktivitäten in jedem Audiosegment einbezieht; und das Zuordnen das Zuordnen des jeweiligen, wenigstens einen der Fahrzeugkontexte in Bezug auf jedes Audiosegment einbezieht und wobei das Vergleichen des Audiosignals mit wenigstens einigen der Geräuschaktivitäten, das Berechnen eines entsprechenden Matching Score für wenigstens einige der Geräuschaktivitätsmodelle und das Bestimmen, welche der Geräuschaktivitäten detektiert wird, in Bezug auf jedes Audiosegment durchgeführt werden.
  23. Verfahren nach Anspruch 21 oder 22, wobei das Vergleichen der Matching Scores das Gewichten der Matching Scores unter Verwendung eines entsprechenden n-Gramm-Modells des jeweiligen, mit dem oder jedem jeweiligen Geräuschaktivitätsmodell verknüpften Fahrzeugkontexts einbezieht.
  24. Verfahren nach einem der Ansprüche 12 bis 23, das die Annahme umfasst, dass in der entsprechenden frequenzbasierten Definition zeitliche Seltenheit vorhanden ist.
  25. Verfahren nach einem der Ansprüche 10 bis 24, das Organisieren der Audiosegmente in entsprechende Rahmen und die Annahme, dass jeder Rahmen einer einzigen Geräuschaktivität oder einem einzigen Geräuschaktivitätsmodell entspricht, umfasst.
  26. Verfahren nach einem vorhergehenden Anspruch, wobei das Zuordnen das Verwenden eines Verlaufs wenigstens eines vorher zugeordneten Fahrzeugkontextes beim Bestimmen wenigstens eines der Fahrzeugkontexte einbezieht.
  27. Verfahren nach einem vorhergehenden Anspruch, das Bereitstellen eines entsprechenden n-Gramm-Modells für jeden der Fahrzeugkontexte umfasst.
  28. Verfahren nach Anspruch 27, wobei das Zuordnen das Verwenden eines Verlaufs wenigstens eines vorher zugeordneten Fahrzeugkontextes zusammen mit den n-Gramm-Modellen beim Bestimmen des wenigstens einen der Fahrzeugkontexte einbezieht.
  29. Verfahren nach einem vorhergehenden Anspruch, wobei jeder der Fahrzeugkontexte einem jeweiligen oder mehreren jeweiligen, mit dem Fahrzeug verknüpften Ereignissen entspricht.
  30. System zum Bestimmen von Kontexten für ein Fahrzeug, wobei das System umfasst: wenigstens ein Mikrophon zum Detektieren eines Audiosignals im Fahrzeug; und ein Kontextklassifikationssystem, das dazu ausgelegt ist, eine Mehrzahl von Fahrzeugkontexten mit einer jeweiligen oder mehreren jeweiligen aus einer Mehrzahl von Geräuschaktivitäten zu verknüpfen, wenigstens eine der Geräuschaktivitäten im Audiosignal zu detektieren und wenigstens einen der Fahrzeugkontexte, der mit der detektierten, wenigstens einen der Geräuschaktivitäten verknüpft ist, dem Fahrzeug zuzuordnen.
  31. System nach Anspruch 30, wobei das Kontextklassifikationssystem dazu ausgelegt ist, Nicht-Audio-Daten zur Verwendung bei der Zuordnung von Fahrzeugkontexten zu beziehen.
  32. System nach Anspruch 31, das wenigstens einen Sensor zum Detektieren von Nicht-Audio-Fahrzeugdaten und Mittel zum Bereitstellen der Nicht-Audio-Daten für das Kontextklassifikationssystem umfasst.
  33. System nach Anspruch 32, wobei der wenigstens eine Sensor dazu ausgelegt ist, Nicht-Audio-Fahrzeugdaten zu detektieren, die Daten umfassen, die den Betriebszustand eines oder mehrerer der Systeme des Fahrzeugs oder der Vorrichtungen des Fahrzeugs angeben.
  34. System nach einem der Ansprüche 31 bis 33, wobei das Kontextklassifikationssystem dazu ausgelegt ist, die Nicht-Audio-Daten aus einem Fahrzeugsteuerungssystem, zum Beispiel der Motorsteuereinheit, zu beziehen.
  35. Fahrzeug-Audiosystem, das ein System zum Bestimmen von Kontexten für ein Fahrzeug umfasst, wobei das Kontextbestimmungssystem umfasst: wenigstens ein Mikrophon zum Detektieren eines Audiosignals im Fahrzeug; und ein Kontextklassifikationssystem, das dazu ausgelegt ist, eine Mehrzahl von Fahrzeugkontexten mit einer jeweiligen oder mehreren jeweiligen aus einer Mehrzahl von Geräuschaktivitäten zu verknüpfen, wenigstens eine der Geräuschaktivitäten im Audiosignal zu detektieren und wenigstens einen der Fahrzeugkontexte, der mit der detektierten, wenigstens einen der Geräuschaktivitäten verknüpft ist, dem Fahrzeug zuzuordnen.
  36. Fahrzeug-Audiosystem nach Anspruch 35, das wenigstens eine Audiovorrichtung umfasst oder zusammen mit ihr betrieben werden kann, wobei der Betrieb wenigstens einer der wenigstens einen Audiovorrichtung von dem zugeordneten, wenigstens einen der Fahrzeugkontexte abhängt.
  37. Fahrzeug-Audiosystem nach Anspruch 36, wobei die wenigstens eine Audiovorrichtung eine beliebige oder mehrere von einer Audiowiedergabevorrichtung, einer Spracherkennungsvorrichtung, einer Rauschunterdrückungsvorrichtung oder einer Rauschverbesserungsvorrichtung umfasst oder mit ihr/ihnen zusammen betrieben werden kann.
  38. Fahrzeug-Audiosystem nach Anspruch 36 oder 37, wobei die wenigsten eine Audiovorrichtung eines oder mehrere von einem Radio, einem CD-Player, einem Mediaplayer, einem Telefonsystem, einem Navigationssystem oder einem Sprachsteuerungssystem umfasst.
DE102014118450.5A 2014-01-28 2014-12-11 Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext Withdrawn DE102014118450A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/165,902 2014-01-28
US14/165,902 US9311930B2 (en) 2014-01-28 2014-01-28 Audio based system and method for in-vehicle context classification

Publications (1)

Publication Number Publication Date
DE102014118450A1 true DE102014118450A1 (de) 2015-07-30

Family

ID=51869583

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014118450.5A Withdrawn DE102014118450A1 (de) 2014-01-28 2014-12-11 Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext

Country Status (3)

Country Link
US (1) US9311930B2 (de)
DE (1) DE102014118450A1 (de)
GB (1) GB2522506A (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015014652A1 (de) * 2015-11-12 2017-05-18 Audi Ag Verfahren zum Betreiben eines Kraftfahrzeugs, bei welchem ein Text eines Musikstücks ausgegeben wird, und Kraftfahrzeug
WO2020119995A1 (de) 2018-12-13 2020-06-18 Volkswagen Aktiengesellschaft Verfahren zum betreiben eines interaktiven informationssystems für ein fahrzeug, sowie ein fahrzeug
DE102022107293A1 (de) 2022-03-28 2023-09-28 Bayerische Motoren Werke Aktiengesellschaft Assistenzsystem und Assistenzverfahren für ein Fahrzeug

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106527416A (zh) * 2015-09-13 2017-03-22 上海能感物联网有限公司 汉语语音现场集群控制的能自动导航的驱动器
CN106527421A (zh) * 2015-09-13 2017-03-22 上海能感物联网有限公司 汉语文本集群遥控的能自动导航的驱动器
CN106527417A (zh) * 2015-09-13 2017-03-22 上海能感物联网有限公司 汉语语音集群遥控的能自动导航的驱动器
US20170287476A1 (en) * 2016-03-31 2017-10-05 GM Global Technology Operations LLC Vehicle aware speech recognition systems and methods
US10057681B2 (en) * 2016-08-01 2018-08-21 Bose Corporation Entertainment audio processing
US10276187B2 (en) * 2016-10-19 2019-04-30 Ford Global Technologies, Llc Vehicle ambient audio classification via neural network machine learning
KR20200042127A (ko) * 2018-10-15 2020-04-23 현대자동차주식회사 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4352790B2 (ja) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
WO2008050307A1 (en) 2006-10-26 2008-05-02 Xceed Holdings (Pty) Limited Neck brace
ATE509332T1 (de) 2005-03-14 2011-05-15 Harman Becker Automotive Sys Automatische erkennung von fahrzeugbetrieb- geräuschsignalen
US20070188308A1 (en) * 2006-02-14 2007-08-16 Lavoie Bruce S Vehicular indicator audio controlling
JP4332813B2 (ja) 2007-07-23 2009-09-16 株式会社デンソー 自動車用ユーザーもてなしシステム
US8015002B2 (en) * 2007-10-24 2011-09-06 Qnx Software Systems Co. Dynamic noise reduction using linear model fitting
US8423362B2 (en) * 2007-12-21 2013-04-16 General Motors Llc In-vehicle circumstantial speech recognition
US8285545B2 (en) * 2008-10-03 2012-10-09 Volkswagen Ag Voice command acquisition system and method
EP2211336B1 (de) * 2009-01-23 2014-10-08 Harman Becker Automotive Systems GmbH Verbesserte Spracheingabe unter Verwendung von Navigationsinformationen
US9263040B2 (en) 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
US9141187B2 (en) * 2013-01-30 2015-09-22 Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America Interactive vehicle synthesizer
US10373611B2 (en) * 2014-01-03 2019-08-06 Gracenote, Inc. Modification of electronic system operation based on acoustic ambience classification

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015014652A1 (de) * 2015-11-12 2017-05-18 Audi Ag Verfahren zum Betreiben eines Kraftfahrzeugs, bei welchem ein Text eines Musikstücks ausgegeben wird, und Kraftfahrzeug
DE102015014652B4 (de) 2015-11-12 2023-05-17 Audi Ag Verfahren zum Betreiben eines Kraftfahrzeugs, bei welchem ein Text eines Musikstücks ausgegeben wird, und Kraftfahrzeug
WO2020119995A1 (de) 2018-12-13 2020-06-18 Volkswagen Aktiengesellschaft Verfahren zum betreiben eines interaktiven informationssystems für ein fahrzeug, sowie ein fahrzeug
DE102018221712A1 (de) 2018-12-13 2020-06-18 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines interaktiven Informationssystems für ein Fahrzeug, sowie ein Fahrzeug
DE102018221712B4 (de) 2018-12-13 2022-09-22 Volkswagen Aktiengesellschaft Verfahren zum Betreiben eines interaktiven Informationssystems für ein Fahrzeug, sowie ein Fahrzeug
DE102022107293A1 (de) 2022-03-28 2023-09-28 Bayerische Motoren Werke Aktiengesellschaft Assistenzsystem und Assistenzverfahren für ein Fahrzeug

Also Published As

Publication number Publication date
GB201416235D0 (en) 2014-10-29
US20150215716A1 (en) 2015-07-30
GB2522506A (en) 2015-07-29
US9311930B2 (en) 2016-04-12

Similar Documents

Publication Publication Date Title
DE102014118450A1 (de) Audiobasiertes System und Verfahren zur Klassifikation von fahrzeuginternem Kontext
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE60023517T2 (de) Klassifizierung von schallquellen
DE102014217681B4 (de) Sirenensignalquellenerfassung, -Erkennung und -Lokalisation
DE102007051261A1 (de) Verfahren und Vorrichtung zur akustischen Beurteilung eines Kraftfahrzeuges
DE102015213715A1 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE102018113034A1 (de) Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat
DE102017121059A1 (de) Identifikation und erzeugung von bevorzugten emoji
DE102019107624A1 (de) System und Verfahren zur Erfüllung einer Sprachanforderung
DE102017102392A1 (de) Automatische spracherkennung bei stockender sprechweise
DE69819438T2 (de) Verfahren zur Spracherkennung
DE102020100497A1 (de) Systeme und verfahren von fahrzeugbasierter echtzeitanalyse und verwendungen davon
DE112018007847B4 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
DE102017121054A1 (de) Remote-spracherkennung in einem fahrzeug
DE102018103188A1 (de) Verbesserte Aufgabenerledigung bei der Spracherkennung
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE102015105876A1 (de) Verfahren zum Bereitstellen einer Betreiberunterstützung unter Verwendung eines Telematikdienstsystems eines Fahrzeugs
Kiktova et al. Comparison of different feature types for acoustic event detection system
DE102016217026A1 (de) Sprachsteuerung eines Kraftfahrzeugs
AU2005100274A4 (en) Method and apparatus for analyising sound
DE102014207437A1 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
WO2022023008A1 (de) Computerimplementiertes verfahren und computerprogramm zum maschinellen lernen einer robustheit eines akustischen klassifikators, akustisches klassifikationssystem für automatisiert betreibbare fahrsysteme und automatisiert betreibbares fahrsystem
DE112018007970T5 (de) Spracherkennungsvorrichtung, Spracherkennungssystem und Spracherkennungsverfahren
DE102016115018A1 (de) Audiosignatur für Sprachbefehlbeobachtung
EP1345208A2 (de) Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen

Legal Events

Date Code Title Description
R081 Change of applicant/patentee

Owner name: QUALCOMM TECHNOLOGIES INTERNATIONAL, LTD., GB

Free format text: FORMER OWNER: CAMBRIDGE SILICON RADIO LIMITED, CAMBRIDGE, GB

R082 Change of representative

Representative=s name: MAUCHER JENKINS, DE

Representative=s name: OLSWANG GERMANY LLP, DE

Representative=s name: MAUCHER JENKINS PATENTANWAELTE & RECHTSANWAELT, DE

R082 Change of representative

Representative=s name: MAUCHER JENKINS, DE

Representative=s name: MAUCHER JENKINS PATENTANWAELTE & RECHTSANWAELT, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee