DE102015116989A1 - Akustische Impulsantwortsimulation - Google Patents

Akustische Impulsantwortsimulation Download PDF

Info

Publication number
DE102015116989A1
DE102015116989A1 DE102015116989.4A DE102015116989A DE102015116989A1 DE 102015116989 A1 DE102015116989 A1 DE 102015116989A1 DE 102015116989 A DE102015116989 A DE 102015116989A DE 102015116989 A1 DE102015116989 A1 DE 102015116989A1
Authority
DE
Germany
Prior art keywords
spoken utterance
vehicle
impulse response
microphone
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102015116989.4A
Other languages
English (en)
Inventor
Michael Alan Bloomer
Scott Andrew Amman
Brigitte Frances Mora Richardson
Francois Charette
Mark Edward Porter
Gintaras Vincent Puskorius
Anthony Dwayne Cooprider
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of DE102015116989A1 publication Critical patent/DE102015116989A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephone Function (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Navigation (AREA)

Abstract

Wenigstens eine gesprochene Äußerung und eine gespeicherte Fahrzeugakustikimpulsantwort können einer Rechenvorrichtung bereitgestellt werden. Die Rechenvorrichtung ist programmiert, um wenigstens eine Sprachdatei auf der Grundlage zumindest zum Teil der gesprochenen Äußerung und der Fahrzeugakustikimpulsantwort bereitzustellen.

Description

  • HINTERGRUND
  • Spracherkennungssysteme und/oder Freisprechrufsysteme können in Fahrgasträumen von Kraftfahrzeugen bereitgestellt werden. Das Erreichen einer guten Spracherkennung und/oder einer guten Freisprechtelefonrufqualität in einem Fahrzeug kann jedoch infolge der sehr lauten Natur der Fahrzeugumgebung problematisch sein. Geräuschquellen umfassen die durch Wind, mechanische und strukturelle Merkmale, Reifen, Insassen, den Motor, den Auspuff, den HVAC-Luftdruck usw. erzeugten Geräusche. Die Kabinenakustik beeinflusst auch die Spracherkennung und die Freisprechrufqualität. Fahrzeuginnenmaterialien, die Geometrie usw. haben einen Einfluss auf die Ausbreitung der Sprache eines Benutzers zu einem Freisprechmikrofon, das für Spracherkennungs- und/oder Freisprechtelefonrufaufgaben verantwortlich ist.
  • Der traditionelle Ansatz für das Trainieren und Beurteilen einer Spracherkennungsmaschine oder das Beurteilen der Freisprechrufqualität umfasst das Fahren von Fahrzeugen unter verschiedenen Testbedingungen über verschiedene Straßenoberflächen. Die in verschiedene Fahrzeughintergrundtöne eingebetteten Äußerungen einer Person werden am Ausgang eines Freisprechmikrofons aufgezeichnet. Diese Aufzeichnungen werden dann für die anschließende Beurteilung der Spracherkennung oder von Freisprechtelefonanrufen verwendet. Dieser traditionelle Ansatz ist sehr zeitaufwendig, logistisch schwierig, kostspielig und mit experimentellen Unwägbarkeiten überfrachtet.
  • ZEICHNUNG
  • Es zeigen:
  • 1 ein Blockdiagramm eines ersten als Beispiel dienenden Systems zum Erzeugen von Fahrzeugsprachdateien,
  • 2 ein Blockdiagramm eines zweiten als Beispiel dienenden Systems zum Erzeugen von Fahrzeugsprachdateien,
  • 3 ein Blockdiagramm eines dritten als Beispiel dienenden Systems zum Erzeugen von Fahrzeugsprachdateien, und
  • 4 ein Prozessflussdiagramm, welches einen als Beispiel dienenden Prozess für das Erzeugen von Sprachdateien zeigt.
  • BESCHREIBUNG
  • Hier werden ein vorteilhaftes System und ein vorteilhaftes Verfahren offenbart, wobei die akustische Impulsantwort eines Fahrzeugfahrgastraums in die Erzeugung von Sprachdateien für die Verwendung bei einem Spracherkennungstraining und/oder einer Spracherkennungsbeurteilung, einer Beurteilung von Freisprechmikrofonen usw. aufgenommen wird. Der vorliegend offenbarte Erfindungsgegenstand macht es vorteilhafterweise unnötig, ein Fahrzeug langfristig oder anhaltend zu verwenden, weil ein Fahrzeug im Allgemeinen nur für eine einmalige Aufzeichnung der Hintergrundgeräuschbedingungen und der Fahrgastraumimpulsantwort benötigt wird. Danach ist das Fahrzeug nicht mehr erforderlich. Fahrgastraumimpulsantworten und typischerweise auch aufgezeichnete Hintergrundgeräusche können mit gesprochenen Äußerungen kombiniert werden, die in Echtzeit in einer Laborumgebung und/oder von einer vorab aufgezeichneten Datenbank bereitgestellt werden können. Das offenbarte System und das offenbarte Verfahren haben auch das Potential, große Sprachdatenbanken zu erzeugen, die für eine Anzahl von Zwecken verwendet werden können, einschließlich des Trainings automatischer Spracherkennungsmaschinen.
  • 1 ist ein Blockdiagramm eines ersten als Beispiel dienenden Systems 10 zur Erzeugung von Fahrzeugsprachdateien 36. Das System 10 weist ein Untersystem 11 zur Erzeugung von Fahrzeughintergrundtönen auf. Eine Fahrzeugtondatenbank 12 speichert aufgezeichnete Töne von einem Fahrzeug. Beispielsweise kann ein Fahrzeug gemäß verschiedenen Parametern, beispielsweise unterschiedlichen Straßenoberflächen, unterschiedlichen Geschwindigkeiten, unterschiedlichen Umweltbedingungen usw., auf einer Teststrecke gefahren werden. Tondateien können aufgezeichnet werden, beispielsweise unter Verwendung einer Aufzeichnungsvorrichtung mit Mikrofonen, die sich an einer oder mehreren Stellen in einem Fahrzeugfahrgastraum befinden, für verschiedene Permutationen solcher Parameter, und in der Datenbank 12 gespeichert werden.
  • Ein Raumentzerrer 14 kann in einer bekannten Weise bereitgestellt werden, um von Dateien in der Tondatenbank 12 bereitgestellte Töne entsprechend akustischen Merkmalen eines Raums, Labors usw., in dem sich ein Lautsprecher 16 befindet, anzupassen. Der Zweck der Verwendung des Entzerrers 14 besteht darin, zu bewirken, dass Töne vom Lautsprecher 16, entsprechend den Parametern, mit denen die Töne aufgezeichnet wurden, die gleiche oder eine ähnliche spektrale Form aufweisen, welche Frequenzen aufgezeichneter Töne in der Datenbank 12 hätten, falls sie einem Freisprechmikrofon in einem Fahrzeug bereitgestellt werden würden. Beispielsweise könnte ein Entzerrer 14 entsprechend bekannten Merkmalen eines Raums eingestellt werden und nur dann neu eingestellt werden, wenn sich die Raumkonfiguration, beispielsweise die Raumakustik, ändert. Alternativ könnte ein Entzerrer 14 in Echtzeit oder im Wesentlichen in Echtzeit gesteuert werden, indem die Eingabe in das Mikrofon 28 überwacht wird und der Entzerrer 14 auf der Grundlage dieser Eingabe eingestellt wird, um eine flache Frequenzantwort am Mikrofon 28 in Bezug auf Töne vom Lautsprecher 16, die im Raum abgespielt werden, bereitzustellen. Bei einer weiteren Alternative könnte eine akustische Impulsantwort eines Raums, Labors usw. gemessen werden und mit Fahrzeugtönen in der Datenbank 12 gefaltet werden.
  • Der Lautsprecher 16 wird verwendet, um Töne von der Datenbank 12 abzuspielen. Es sei bemerkt, dass ein Lautsprecher 16 in 1 aufgenommen ist und auf ihn in der vorliegenden Beschreibung zur Vereinfachung der Beschreibung und Erläuterung Bezug genommen wird, dass das Untersystem 11 jedoch auch mehrere Lautsprecher 16 aufweisen könnte, die sich an verschiedenen Stellen in einem Raum, Labor usw. befinden. Ferner sei bemerkt, dass der Entzerrer 14 für verschiedene Lautsprecher 16, die sich an verschiedenen Stellen in einem Raum befinden, auf verschiedene Arten eingestellt werden könnte.
  • Das System 10 weist ferner ein Untersystem 17 zum Simulieren der Sprache von Fahrzeuginsassen, d.h. zum Bereitstellen einer oder mehrerer gesprochener Äußerungen, auf. Ein Mikrofon 28 empfängt durch den Lautsprecher 16 und einen Kopf-und-Oberkörper-Simulator ("head and torso simulator" – HATS) 26 abgespielte Töne, wie bekannt ist. Das Untersystem 17 weist ferner eine Datenbank 18 aufgezeichneter Äußerungen auf, die eine oder mehrere Tondateien aufweist, die anhand Äußerungen einer sprechenden Person in einer ruhigen, nicht nachhallenden Umgebung aufgezeichnet wurden. Beispielsweise könnten die Tondateien in der Datenbank 18 Befehle für ein Freisprechtelefonsystem, Musteräußerungen für das Spracherkennungstraining usw. aufweisen. Die Tondateien werden dem HATS 26 von der Datenbank 18 aufgezeichneter Äußerungen bereitgestellt. Ein HATS-Entzerrer 20 und ein Raumentzerrer 22 sind bereitgestellt, um die Tondateien von der Datenbank 18 aufgezeichneter Äußerungen einzustellen, bevor Töne vom HATS 26 ausgegeben werden. Der Zweck der Verwendung des HATS-Entzerrers 20 zusätzlich zum Raumentzerrer 22 besteht darin zu verhindern, dass Äußerungen aus der Datenbank 18 durch den HATS 26 spektral geändert werden, wenn Töne vom HATS 26 ausgegeben werden. Der Raumentzerrer 22 unterscheidet sich vom Raumentzerrer 14 in der Hinsicht, dass der Raumentzerrer 22 dem Mikrofon eine flache Frequenzantwort vom HATS-Mund bereitstellt, während der Raumentzerrer 14 dem Mikrofon eine flache Frequenzantwort vom Lautsprecher 16 bereitstellt.
  • Ferner kann eine Rechenvorrichtung mit einem Prozessor und einem Speicher Töne von der Datenbank 18 aufgezeichneter Äußerungen unter Verwendung einer gespeicherten Fahrzeugakustikimpulsantwort 24 einstellen. Das heißt, dass die Impulsantwort 24 mit entzerrten aufgezeichneten Äußerungen gefaltet werden kann, um Äußerungen vom HATS 26 am Mikrofon 28 mit einer spektralen Formung und einem Nachhall, die infolge der Fahrzeugfahrgastraumakustik vorhanden wären, zu erzeugen. Eine akustische Impulsantwort 24 kann in einer bekannten Weise gemessen werden und beschreibt bekanntermaßen die akustischen Merkmale eines akustischen Raums oder eingeschlossenen Bereichs.
  • Sobald Töne aus der Datenbank 18 durch die Entzerrer 20, 22 und entsprechend der Fahrzeugimpulsantwort 24 verarbeitet wurden, wie vorstehend beschrieben wurde, und während Töne aus der Fahrzeugtondatenbank 12, die durch den Entzerrer 14 verarbeitet wurden, durch den Lautsprecher 16 abgespielt werden, wie auch vorstehend beschrieben wurde, kann der HATS 26 verwendet werden, um dem Mikrofon 28 aufgezeichnete Äußerungen bereitzustellen, wodurch Ausgangstöne 30 erzeugt werden, welche die durch den Lautsprecher 16 erzeugten Fahrzeugtöne einschließen. Die Ausgangstöne 30 können einem Computer 32 bereitgestellt werden, d.h. einer Vorrichtung mit einem Prozessor und einem Speicher, wobei der Speicher Befehle speichert, die durch den Prozessor ausführbar sind, um verschiedene Schritte einschließlich der hier beschriebenen Schritte auszuführen. Der Computer 32 kann die Ausgangstöne 30 verwenden, um eine oder mehrere Sprachdateien 36 zu erzeugen.
  • Ferner kann der Computer 32 über ein einfaches Digitalisieren über das Mikrofon 28 empfangener Töne in eine Tondatei in der Art einer WAV-Datei oder dergleichen hinaus eine zusätzliche Verarbeitung ausführen. Wenn beispielsweise ein Zweck der Erzeugung einer Sprachdatei oder von Sprachdateien 36 darin besteht, ein Freisprechmikrofon in einem Fahrzeug zu beurteilen, kann eine Freisprechmikrofonimpulsantwort 34 bei der Erzeugung einer Sprachdatei oder von Sprachdateien 36 auf die Ausgangstöne 30 angewendet werden. Wie vorstehend erwähnt wurde, ist eine akustische Impulsantwort in der Art der Mikrofonimpulsantwort 34 bekannt und kann ferner mit Ausgangstönen 30 gefaltet werden, um Sprachdateien 36 zu erzeugen.
  • Die Sprachdateien 36 können auf eine Vielzahl von Arten verwendet werden, um die Freisprechrufqualität oder die Leistungsfähigkeit automatischer Spracherkennungssysteme zu beurteilen. Beispielsweise kann die Freisprechrufqualität durch Anwenden der Sprachdateien 36 auf ein Freisprechtelefonverarbeitungssystem, das ein Bluetooth-Ausgangssignal oder dergleichen erzeugt, beurteilt werden. Dieses Bluetooth-Ausgangssignal stellt zusammen mit Sprachdateien aus der Äußerungsdatenbank 18 und Ausgangstönen 30 die erforderlichen Signale für die Ausführung der Normen EG 202 396-3 und TS 103 106 des European Telecommunications Standards Institute (ETSI) bereit. Andere Freisprechrufqualitätsmaßnahmen können auch mit diesen Signalen verwendet werden. Zusätzlich können die Sprachdaten aus der Bluetooth-Ausgabe, der Tonausgabe 30 oder Sprachdateien 36 einer automatischen Spracherkennungsmaschine zugeführt werden, um die Leistungsfähigkeit der Spracherkennungsmaschine mit Sprachäußerungen zu beurteilen, die durch Fahrzeughintergrundgeräusche, die Fahrzeugakustik, die Freisprechmikrofonfrequenzantwort und die Bluetooth-Verarbeitung beeinflusst werden. Die Sprachdateien können auch für das Training automatischer Spracherkennungsmaschinen verwendet werden.
  • 2 ist ein Blockdiagramm eines zweiten als Beispiel dienenden Systems 10’ zum Erzeugen von Fahrzeugsprachdateien 36. An Stelle des HATS 26 verwendet das System 10’ eine Testperson 38, um dem Mikrofon 28 Äußerungen bereitzustellen. Dementsprechend lässt das Hintergrundtonsimulationsuntersystem 11’ des Systems 10’ den Raumentzerrer 14 und den Lautsprecher 16, die im Untersystem 11 des Systems 10 vorhanden sind, fort. Stattdessen werden im System 10’ Töne direkt aus der Fahrzeugtondatenbank 12 einem Kopfhörer 40 zugeführt, der vom Tester 38 getragen werden kann. Der Zweck des Bereitstellens von Fahrzeugtönen zum Kopfhörer 40 besteht darin, den so genannten Lombard-Effekt zu berücksichtigen, d.h. ein Phänomen, wodurch Personen die Lautstärke und/oder den Ton von Sprache einstellen können, um Hintergrundgeräusche zu kompensieren.
  • Ferner lässt das Sprachsimulationsuntersystem 17’ des Systems 10’ die Datenbank 18 aufgezeichneter Äußerungen zusammen mit den Entzerrern 20, 22 fort, weil Äußerungen vom Tester 38 dem "Nachsprechmikrofon" 28 bereitgestellt werden und Äußerungen aus der Datenbank 18 daher nicht benötigt werden. (Es sei bemerkt, dass die Kopfhörerentzerrung von Tönen aus der Hintergrundtondatenbank 12, die dem Kopfhörer 40 bereitgestellt werden, aufgenommen werden könnte, um eine flache Frequenzantwort für den Kopfhörer bereitzustellen.) Anders als beim System 10 befindet sich beim System 10’ das Mikrofon 28 dicht genug beim Sprecher, so dass der im System 10 enthaltene Entzerrer 22 nicht benötigt wird. Stattdessen werden Ausgangstöne 30 vom Mikrofon 28 auf der Grundlage der vom Tester 38 empfangenen Sprache bereitgestellt. Der Computer 32 kann dann die Töne 30 mit der Fahrzeugimpulsantwort 34 falten. Die gefaltete Äußerung wird dann zum Fahrzeughintergrundgeräusch aus der Fahrzeugtondatenbank 12 addiert. Das Ergebnis wird dann mit der Freisprechmikrofonantwort 34 gefaltet, um eine oder mehrere Sprachdateien 36 zu erzeugen, auf welche der Einfluss eines Freisprechmikrofons, der Fahrzeugakustik und von Fahrzeughintergrundgeräuschen aufgeprägt wurde.
  • Ausgangssignale in der Art der für das System 10 beschriebenen stehen auch für die Beurteilung der Freisprechrufqualität und der Spracherkennung im System 10’ zur Verfügung. Die Ausgabe des Mikrofons 28 des Systems 10’ ist im Allgemeinen äquivalent mit in der Äußerungsdatenbank 18 des Systems 10 gespeicherten Daten. Der mit der Fahrzeugimpulsantwort 24 unter Hinzufügung von Fahrzeughintergrundgeräuschen aus der Fahrzeugtondatenbank 12 gefaltete Ausgangston 30 könnte ein Signal bereitstellen, das im Wesentlichen jenem des Ausgangstons 30 vom System 10 äquivalent ist. Schließlich würde die Anwendung der Sprachdateien 36 auf ein Freisprechtelefonverarbeitungssystem, das ein Bluetooth-Ausgangssignal oder dergleichen erzeugt, die erforderlichen Signale für die Beurteilung der Freisprechrufqualität bereitstellen. Zusätzlich können die Sprachdaten aus der Bluetooth-Ausgabe, der Ausgangston 30 oder Sprachdateien 36 einer automatischen Spracherkennungsmaschine zugeführt werden, um die Leistungsfähigkeit der Spracherkennungsmaschine mit Sprachäußerungen zu beurteilen, die durch Fahrzeughintergrundgeräusche, die Fahrzeugakustik, die Freisprechmikrofonfrequenzantwort und die Bluetooth-Verarbeitung beeinflusst werden. Die Sprachdateien können auch für das Training automatischer Spracherkennungsmaschinen verwendet werden.
  • 3 ist ein Blockdiagramm eines dritten als Beispiel dienenden Systems 10’’ zum Erzeugen von Fahrzeugsprachdateien 36. Im System 10’’ sind sowohl der HATS 26 als auch die Testperson 38 fortgelassen. Ein Hintergrundtönesimulationsuntersystem 11’’ ist ähnlich dem Untersystem 11’ bereitgestellt, das vorstehend mit Bezug auf das System 10’ erörtert wurde. Beim System 10’’ unterscheidet sich das System 17’’ jedoch von anderen Variationen in der Hinsicht, dass die aufgezeichneten Äußerungen 18 mit der Fahrzeugimpulsantwort gefaltet werden und direkt dem Computer 32 bereitgestellt werden. Im Computer 32 werden die gefalteten Äußerungen zum Fahrzeughintergrundgeräusch aus der Fahrzeugtondatenbank 12 addiert. Der sich ergebende Ton wird weiter mit der Freisprechmikrofonimpulsantwort gefaltet. Der Computer 32 erzeugt auf diese Weise eine oder mehrere Sprachdateien 36, denen der Einfluss des Freisprechmikrofons, der Fahrzeugakustik und des Fahrzeughintergrundgeräusches aufgeprägt wurde. Ausgangssignale in der Art der für die Systeme 10 und 10’ beschriebenen sind auch für die Freisprechrufqualität und die Spracherkennungsbeurteilung verfügbar. Die Äußerungsdatenbank 18, die mit der Fahrzeugimpulsantwort 24 mit hinzugefügten Hintergrundgeräuschen von Fahrzeugtönen 12 gefalteten aufgezeichneten Äußerungen zusammen mit der Anwendung der Sprachdateien 36 auf ein Freisprechtelefonverarbeitungssystem, das ein Bluetooth-Ausgangssignal erzeugt, könnten die erforderlichen Signale für eine Freisprechrufqualitätsbeurteilung bereitstellen. Zusätzlich können die Sprachdaten aus der Bluetooth-Ausgabe, der Tonausgabe 30 und/oder Sprachdateien 36 einer automatischen Spracherkennungsmaschine zugeführt werden, um die Leistungsfähigkeit der Spracherkennungsmaschine mit Sprachäußerungen zu beurteilen, die durch Fahrzeughintergrundgeräusche, die Fahrzeugakustik, die Freisprechmikrofonfrequenzantwort und die Bluetooth-Verarbeitung beeinflusst werden. Die Sprachdateien können auch für das Training automatischer Spracherkennungsmaschinen verwendet werden.
  • 4 ist ein Prozessflussdiagramm, welches einen als Beispiel dienenden Prozess 100 zur Erzeugung von Sprachdateien 36 zeigt. Der Prozess 100 kann, wie verstanden wird, mit geeigneten Variationen in einem oder mehreren der Systeme 10, 10’, 10’’ verwirklicht werden.
  • Der Prozess 100 beginnt in Block 105, wo Fahrzeugtöne aufgezeichnet und in der Datenbank 12 gespeichert werden. Wie vorstehend beschrieben, können ein oder mehrere Mikrofone in einem Fahrzeugfahrgastraum angeordnet werden und können Testparameter definiert werden. Diese Parameter können eine oder mehrere von der Fahrzeuggeschwindigkeit, der Straßenoberfläche einer Teststrecke (beispielsweise unbefestigt, glatt, rau und/oder nass usw.) und einer Umweltbedingung (beispielsweise trocken, leichter Regen, starker Regen, Schnee usw.), das Vorhandensein von Tönen von einem Radio, die Lautstärke eines Radios, das Vorhandensein von Gesprächen von Fahrgästen usw. einschließen. Töne können für einen Zeitraum aufgezeichnet werden und für eine oder mehrere Kombinationen eines oder mehrerer dieser oder anderer Parameter in der Datenbank 12 gespeichert werden.
  • Als nächstes werden in Block 110 gesprochene Äußerungen als Tonausgabe 30 dem Computer 32 bereitgestellt. Wie vorstehend beschrieben wurde, können eine oder mehrere verschiedene Quellen für eine gesprochene Äußerung abhängig davon verwendet werden, ob ein System 10, 10’ oder 10’’ verwendet wird. Beispielsweise können Äußerungen von einer Datenbank 18 aufgezeichneter Äußerungen bereitgestellt werden oder von einem Tester 38 gesprochen werden. Ferner können Äußerungen, die von einem Tester 38 gesprochen werden oder von einer Datenbank 18 einem HATS 26 bereitgestellt werden und von einem Mikrofon 28 empfangen werden, entzerrt und/oder mit einer Impulsantwort in der Art einer Fahrzeugimpulsantwort 24, wie vorstehend beschrieben, gefaltet werden. Dementsprechend kann eine Quelle für einen Ausgangston 30 das Mikrofon 28 und/oder die Datenbank 18 sein. Überdies können Hintergrundtöne von der Datenbank 12 mit gesprochenen Äußerungen versehen werden und einer Entzerrung unterzogen werden, wie mit Bezug auf das System 10 beschrieben, oder nach der Faltung mit der Impulsantwort 34 des Freisprechmikrofons direkt zu den gefalteten Äußerungen addiert werden.
  • Als nächstes erzeugt der Computer 32 in Block 115 eine oder mehrere Sprachdateien 36, wie beispielsweise vorstehend beschrieben wurde.
  • Nach Block 115 endet der Prozess 100.
  • Wie vorstehend erwähnt wurde, können Ergebnisse des Prozesses 100, die Sprachdateien 36, vorteilhafterweise auf verschiedene Arten verwendet werden. Beispielsweise könnte eine gesprochene Äußerung mit verschiedenen Tönen aus der Fahrzeugtondatenbank 12 erzeugt werden, um zu bestimmen, wie verschiedene Parameter für Fahrzeugtöne den Freisprechbetrieb, die Spracherkennung usw. beeinflussen. Bei einem einfachen Beispiel könnte eine Untersuchung eine Assoziation zwischen einem erhöhten Geräuschpegel (beispielsweise Dezibel-Pegel) und der Spracherkennung bestimmen. Ferner können die Sprachdateien 36 als Trainingsdaten für die Spracherkennung, zum Validieren von Freisprechrufbefehlen usw. verwendet werden.
  • SCHLUSSFOLGERUNG
  • Rechenvorrichtungen in der Art jener, die hier allgemein erörtert werden, weisen jeweils Befehle auf, die von einer oder mehreren Rechenvorrichtungen in der Art der vorstehend identifizierten ausführbar sind, welche dazu dienen, Blöcke oder Schritte vorstehend beschriebener Prozesse auszuführen. Beispielsweise können vorstehend erörterte Prozessblöcke als computerausführbare Befehle verwirklicht werden.
  • Computerausführbare Befehle können von Computerprogrammen, die unter Verwendung einer Vielzahl von Programmiersprachen und/oder -technologien, einschließlich und ohne Einschränkung entweder allein oder in Kombination JavaTM, C, C++, Visual Basic, Java Script, Perl, HTML usw. erzeugt wurden, kompiliert oder interpretiert werden. Im Allgemeinen empfängt ein Prozessor (beispielsweise ein Mikroprozessor) Befehle, beispielsweise von einem Speicher, einem computerlesbaren Medium usw., und führt diese Befehle aus, wodurch ein oder mehrere Prozesse, einschließlich eines oder mehrerer der hier beschriebenen Prozesse, ausgeführt werden. Diese Befehle und andere Daten können unter Verwendung einer Vielzahl computerlesbarer Medien gespeichert und übertragen werden. Eine Datei in einer Rechenvorrichtung ist im Allgemeinen eine Sammlung auf einem computerlesbaren Medium in der Art eines Speichermediums, eines Direktzugriffsspeichers usw. gespeicherter Daten.
  • Ein computerlesbares Medium schließt ein beliebiges Medium ein, das am Bereitstellen von Daten (beispielsweise von Befehlen) teilnimmt, die von einem Computer gelesen werden können. Ein solches Medium kann viele Formen annehmen, einschließlich nicht flüchtiger Medien und flüchtiger Medien usw., jedoch ohne Einschränkung darauf. Nicht flüchtige Medien schließen beispielsweise optische oder magnetische Platten und andere permanente Speicher ein. Flüchtige Medien schließen beispielsweise einen dynamischen Direktzugriffsspeicher (DRAM) ein, der typischerweise einen Hauptspeicher bildet. Übliche Formen computerlesbarer Medien umfassen beispielsweise eine Diskette, eine flexible Scheibe, eine Festplatte, ein Magnetband, ein anderes magnetisches Medium, eine CD-ROM, eine DVD, ein anderes optisches Medium, Lochkarten, ein Papierband, ein anderes physikalisches Medium mit Lochmustern, einen RAM, einen PROM, einen EPROM, einen FLASH-EEPROM, einen anderen Speicherchip oder eine andere Speicherkassette oder ein anderes Medium, von dem ein Computer lesen kann.
  • In der Zeichnung geben die gleichen Bezugszahlen die gleichen Elemente an. Ferner könnten einige oder alle dieser Elemente geändert werden. Mit Bezug auf die Medien, Prozesse, Systeme, Verfahren usw., die hier beschrieben wurden, ist zu verstehen, dass, wenngleich die Schritte dieser Prozesse usw. als nach einer bestimmten geordneten Sequenz auftretend beschrieben wurden, diese Prozesse auch verwirklicht werden könnten, wenn die beschriebenen Schritte in einer anderen Reihenfolge als der hier beschriebenen Reihenfolge ausgeführt werden. Es sei ferner bemerkt, dass bestimmte Schritte gleichzeitig ausgeführt werden könnten, dass andere Schritte hinzugefügt werden könnten oder dass bestimmte hier beschriebene Schritte fortgelassen werden könnten. Mit anderen Worten dienen die hier gegebenen Beschreibungen von Prozessen der Erläuterung bestimmter Ausführungsformen und sollten nicht als die beanspruchte Erfindung einschränkend ausgelegt werden.
  • Demgemäß ist zu verstehen, dass die vorstehende Beschreibung als erläuternd und nicht als einschränkend vorgesehen ist. Viele Ausführungsformen und Anwendungen außer den bereitgestellten Beispielen werden Fachleuten beim Lesen der vorstehenden Beschreibung verständlich werden. Der Schutzumfang soll nicht mit Bezug auf die vorstehende Beschreibung bestimmt werden, sondern vielmehr mit Bezug auf die anliegenden Ansprüche, zusammen mit dem vollen Äquivalenzbereich, worauf sich diese Ansprüche beziehen. Es wird erwartet und ist beabsichtigt, dass an den hier erörterten Technologien zukünftige Entwicklungen auftreten werden und dass die offenbarten Systeme und Verfahren in diese zukünftigen Ausführungsformen aufgenommen werden. Zusammenfassend sei bemerkt, dass die Erfindung modifiziert und abgeändert werden kann und nur durch die folgenden Ansprüche beschränkt ist.
  • Alle in den Ansprüchen verwendeten Begriffe sollen mit ihren vernünftigerweise breitmöglichsten Konstruktionen und mit ihren üblichen Bedeutungen versehen werden, wie Fachleute auf dem Gebiet verstehen werden, es sei denn, dass hier explizit etwas gegenteiliges angegeben wird. Insbesondere sollte die Verwendung der Singularartikel, wie "ein/eine/eines", "der/die/das", "derjenige/diejenige/dasjenige" usw. als eines oder mehrere der angegebenen Elemente angebend verstanden werden, es sei denn, dass ein Anspruch eine explizite Einschränkung auf das Gegenteil angibt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • Normen EG 202 396-3 [0016]

Claims (20)

  1. System, welches Folgendes aufweist: eine Quelle für wenigstens eine gesprochene Äußerung, eine gespeicherte Fahrzeugakustikimpulsantwort und eine Rechenvorrichtung, die programmiert ist, um wenigstens eine Sprachdatei auf der Grundlage zumindest zum Teil der gesprochenen Äußerung und der Fahrzeugakustikimpulsantwort bereitzustellen.
  2. System nach Anspruch 1, wobei die Quelle für die wenigstens eine gesprochene Äußerung eine Datenbank aufgezeichneter Äußerungen umfasst.
  3. System nach Anspruch 2, wobei die wenigstens eine gesprochene Äußerung als eine digitale Tondatei von der Datenbank aufgezeichneter Äußerungen der Rechenvorrichtung bereitgestellt wird.
  4. System nach Anspruch 1, welches ferner ein Mikrofon aufweist, um die wenigstens eine gesprochene Äußerung zu empfangen, wobei die wenigstens eine gesprochene Äußerung einem Mikrofon bereitgestellt wird und in eine digitale Tondatei umgewandelt wird, welche der Rechenvorrichtung bereitgestellt wird.
  5. System nach Anspruch 4, welches ferner einen Kopf-und-Oberkörper-Simulator aufweist, der dafür eingerichtet ist, die wenigstens eine gesprochene Äußerung dem Mikrofon bereitzustellen.
  6. System nach Anspruch 1, welches ferner eine Fahrzeugtondatenbank aufweist, in der während des Betriebs eines Fahrzeugs aufgezeichnete Töne gespeichert sind.
  7. System nach Anspruch 1, welches ferner einen Lautsprecher zum Bereitstellen der aufgezeichneten Fahrzeugtöne aufweist.
  8. System nach Anspruch 1, welches ferner eine gespeicherte Freisprechmikrofonimpulsantwort aufweist, wobei der Prozessor ferner programmiert ist, um die wenigstens eine Sprachdatei auf der Grundlage zumindest zum Teil der Freisprechmikrofonimpulsantwort bereitzustellen.
  9. System nach Anspruch 1, welches wenigstens einen Entzerrer aufweist, der dafür eingerichtet ist, die wenigstens eine gesprochene Äußerung zu empfangen und einzustellen.
  10. System nach Anspruch 1, wobei die Fahrzeugakustikimpulsantwort mit der gesprochenen Äußerung gefaltet wird, bevor die gesprochene Äußerung der Rechenvorrichtung bereitgestellt wird.
  11. Verfahren, welches folgende Schritte aufweist: Empfangen wenigstens einer gesprochenen Äußerung in einer Rechenvorrichtung mit einem Prozessor und einem Speicher, wobei der Speicher durch den Prozessor ausführbare Befehle speichert, Empfangen einer gespeicherten Fahrzeugakustikimpulsantwort in der Rechenvorrichtung und Ausführen von Befehlen in der Rechenvorrichtung, um wenigstens eine Sprachdatei auf der Grundlage zumindest zum Teil der gesprochenen Äußerung und der Fahrzeugakustikimpulsantwort bereitzustellen.
  12. Verfahren nach Anspruch 11, wobei eine Quelle für die wenigstens eine gesprochene Äußerung eine Datenbank aufgezeichneter Äußerungen umfasst.
  13. Verfahren nach Anspruch 12, wobei ferner die wenigstens eine gesprochene Äußerung als eine digitale Tondatei von der Datenbank aufgezeichneter Äußerungen der Rechenvorrichtung bereitgestellt wird.
  14. Verfahren nach Anspruch 11, wobei ferner ein Mikrofon verwendet wird, um die wenigstens eine gesprochene Äußerung zu empfangen, wobei die wenigstens eine gesprochene Äußerung einem Mikrofon bereitgestellt wird und in eine digitale Tondatei umgewandelt wird, welche der Rechenvorrichtung bereitgestellt wird.
  15. Verfahren nach Anspruch 14, wobei ferner ein Kopf-und-Oberkörper-Simulator bereitgestellt wird, der dafür eingerichtet ist, die wenigstens eine gesprochene Äußerung dem Mikrofon bereitzustellen.
  16. Verfahren nach Anspruch 11, wobei ferner eine Fahrzeugtondatenbank bereitgestellt wird, welche Töne speichert, die während des Betriebs eines Fahrzeugs aufgezeichnet werden.
  17. Verfahren nach Anspruch 11, wobei ferner ein Lautsprecher für das Bereitstellen der aufgezeichneten Fahrzeugtöne bereitgestellt wird.
  18. Verfahren nach Anspruch 11, welches ferner Folgendes umfasst: Bereitstellen einer gespeicherten Freisprechmikrofonimpulsantwort und Bereitstellen der wenigstens einen Sprachdatei auf der Grundlage zumindest zum Teil der Freisprechmikrofonimpulsantwort.
  19. Verfahren nach Anspruch 11, wobei ferner wenigstens ein Entzerrer bereitgestellt wird, der dafür eingerichtet ist, die wenigstens eine gesprochene Äußerung zu empfangen und einzustellen.
  20. Verfahren nach Anspruch 11, wobei die Fahrzeugakustikimpulsantwort mit der gesprochenen Äußerung gefaltet wird, bevor die gesprochene Äußerung der Rechenvorrichtung bereitgestellt wird.
DE102015116989.4A 2014-10-13 2015-10-06 Akustische Impulsantwortsimulation Pending DE102015116989A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/512,578 2014-10-13
US14/512,578 US9761223B2 (en) 2014-10-13 2014-10-13 Acoustic impulse response simulation

Publications (1)

Publication Number Publication Date
DE102015116989A1 true DE102015116989A1 (de) 2016-04-14

Family

ID=55644288

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015116989.4A Pending DE102015116989A1 (de) 2014-10-13 2015-10-06 Akustische Impulsantwortsimulation

Country Status (5)

Country Link
US (1) US9761223B2 (de)
CN (1) CN105513592B (de)
DE (1) DE102015116989A1 (de)
MX (1) MX2015014413A (de)
RU (1) RU2015141805A (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109427339B (zh) * 2017-09-01 2023-11-17 北京奔驰汽车有限公司 一种基于数据库的整车噪音检测学习装置
US10891949B2 (en) * 2018-09-10 2021-01-12 Ford Global Technologies, Llc Vehicle language processing
US10645501B1 (en) 2019-02-28 2020-05-05 Advanced Bionics Ag Systems and methods for emulating a remote listening environment for a recipient of a cochlear implant system
CN110475181B (zh) * 2019-08-16 2021-04-30 北京百度网讯科技有限公司 设备配置方法、装置、设备和存储介质
US11932256B2 (en) 2021-11-18 2024-03-19 Ford Global Technologies, Llc System and method to identify a location of an occupant in a vehicle
CN116189698A (zh) * 2021-11-25 2023-05-30 广州视源电子科技股份有限公司 语音增强模型的训练方法及装置、存储介质及设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711358B2 (en) * 2004-12-16 2010-05-04 General Motors Llc Method and system for modifying nametag files for transfer between vehicles
JP2007025076A (ja) 2005-07-13 2007-02-01 Xanavi Informatics Corp 車載用音声認識装置
US7729911B2 (en) * 2005-09-27 2010-06-01 General Motors Llc Speech recognition method and system
US7676363B2 (en) 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
US7725316B2 (en) * 2006-07-05 2010-05-25 General Motors Llc Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle
JP2008105608A (ja) 2006-10-26 2008-05-08 Toyota Motor Corp 車両用音声対応制御装置
US7881929B2 (en) * 2007-07-25 2011-02-01 General Motors Llc Ambient noise injection for use in speech recognition
US8468019B2 (en) 2008-01-31 2013-06-18 Qnx Software Systems Limited Adaptive noise modeling speech recognition system
DE102008008501A1 (de) * 2008-02-11 2009-08-13 Siemens Aktiengesellschaft Verfahren zur situativen Berechnung des Akustikverhaltens eines Fahrzeuginnenraums
CN101269638A (zh) 2008-04-10 2008-09-24 清华大学 基于命令词表的汽车电器语音控制方法
US8756062B2 (en) * 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
US20130311175A1 (en) 2011-01-13 2013-11-21 Nec Corporation Speech processing apparatus, control method thereof, storage medium storing control program thereof, and vehicle, information processing apparatus, and information processing system including the speech processing apparatus
US9263040B2 (en) * 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
CN102708870B (zh) * 2012-04-05 2014-01-29 广州大学 基于长脉冲响应的实时快速卷积系统
US9071892B2 (en) * 2012-05-14 2015-06-30 General Motors Llc Switching between acoustic parameters in a convertible vehicle

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Normen EG 202 396-3

Also Published As

Publication number Publication date
CN105513592B (zh) 2021-02-02
US9761223B2 (en) 2017-09-12
MX2015014413A (es) 2016-04-12
RU2015141805A (ru) 2017-04-06
CN105513592A (zh) 2016-04-20
US20160104479A1 (en) 2016-04-14

Similar Documents

Publication Publication Date Title
DE102015116989A1 (de) Akustische Impulsantwortsimulation
DE102018109937A1 (de) Aktive Tondesensibilisierung für tonale Geräusche in einem Fahrzeug
DE102018114529A1 (de) System und Verfahren zur selektiven Lautstärkeeinstellung in einem Fahrzeug
DE102011076484A1 (de) Tonwiedergabevorrichtung mit hörszenariosimulation
DE102014210510A1 (de) System zum Steuern des Fahrzeuginnengeräuschs mittels eines Smartphones und Verfahren dafür
DE102012000931A1 (de) Verfahren zur Diagnose eines Audiosystems eines Kraftfahrzeuges
DE102017105647A1 (de) Systeme und verfahren zum abstimmen von electronic sound enhancement
DE102016204315A1 (de) Fortbewegungsmittel, System und Verfahren zur Anpassung einer Länge einer erlaubten Sprechpause im Rahmen einer Spracheingabe
DE102021214593A1 (de) Aktivgeräuschkontrolleinrichtung für Fahrzeuge und Verfahren zum Steuern derselben
DE19933317C2 (de) Verfahren und Vorrichtung zur Ermittlung der akustischen Raumeigenschaften insbesondere eines Fahrgastraumes in einem Kraftfahrzeug
DE60033039T2 (de) Vorrichtung und verfahren zur unterdrückung von zischlauten unter verwendung von adaptiven filteralgorithmen
DE112009005147T5 (de) System und Verfahren zum Modifizieren eines Audiosignals
DE10258095B3 (de) Vorrichtung und Verfahren zum Erfassen und Wiedergeben von Geräuschen und Kopfhörer
DE102017102234A1 (de) Verfahren und Vorrichtung zur räumlichen Darstellung virtueller Geräuschquellen in einem Fahrzeug
Carr An investigation into automobile wind noise characteristics beyond loudness that affect people's responses to the sounds heard within the car
DE112020005717T5 (de) Erkennung von live-sprache
DE102016003401A1 (de) Erfassungsvorrichtung und Verfahren zum Erfassen einer Sprachäußerung einer sprechenden Person in einem Kraftfahrzeug
DE102020111224A1 (de) System zur Bereitstellung von Schallzonen in einem Fahrzeug
DE112019007580T5 (de) Schallfeld-Steuerungsvorrichtung und Schallfeld-Steuerungsverfahren
DE102017207175A1 (de) Verfahren und Vorrichtung zur Erzeugung von synthetischen Geräuschen
DE102021103310B4 (de) Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum
Huber et al. Validation of In-Vehicle Speech Recognition Using Synthetic Mixing
DE112021000212T5 (de) Verfahren und Einrichtung zur Abschwächung von Audioheulen
DE102022204122A1 (de) Selektive Sprachsteuerung einer Multimediafunktion in einem Fahrzeug
DE102004001911A1 (de) Verfahren und Vorrichtung zur gehörrichtigen Geräuschanalyse von Schallsignalen sowie Dynamisches Filter

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: ETL IP PATENTANWALTSGESELLSCHAFT MBH, DE

Representative=s name: ETL IP PATENT- UND RECHTSANWALTSGESELLSCHAFT M, DE

Representative=s name: ETL WABLAT & KOLLEGEN PATENT- UND RECHTSANWALT, DE

R082 Change of representative

Representative=s name: ETL IP PATENTANWALTSGESELLSCHAFT MBH, DE

Representative=s name: ETL IP PATENT- UND RECHTSANWALTSGESELLSCHAFT M, DE

R012 Request for examination validly filed