DE102015117380A1 - Selektive Geräuschunterdrückung während automatischer Spracherkennung - Google Patents

Selektive Geräuschunterdrückung während automatischer Spracherkennung Download PDF

Info

Publication number
DE102015117380A1
DE102015117380A1 DE102015117380.8A DE102015117380A DE102015117380A1 DE 102015117380 A1 DE102015117380 A1 DE 102015117380A1 DE 102015117380 A DE102015117380 A DE 102015117380A DE 102015117380 A1 DE102015117380 A1 DE 102015117380A1
Authority
DE
Germany
Prior art keywords
voice
frames
snr
predetermined threshold
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102015117380.8A
Other languages
English (en)
Other versions
DE102015117380B4 (de
Inventor
Gaurav Talwar
Xufang Zhao
Robert D. Sims III
MD Foezur Rahman Chowdhury
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102015117380A1 publication Critical patent/DE102015117380A1/de
Application granted granted Critical
Publication of DE102015117380B4 publication Critical patent/DE102015117380B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

Es werden eine Maschine einer automatischen Spracherkennung und ein Verfahren zur Verwendung der Maschine beschrieben. Das Verfahren betrifft die Front-End-Verarbeitung eines Audiosignals und umfasst die folgenden Schritte: Identifizieren einer Vielzahl von Frames mit Stimme des Audiosignals; Ermitteln, dass einer oder mehrere der Vielzahl von Frames mit Stimme einen Signal-Rausch-Wert (SNR-Wert) aufweist oder aufweisen, der größer als ein erster vorbestimmter Schwellenwert ist; und basierend auf der Ermittlung Umgehen einer Geräuschunterdrückung für den einen oder die mehreren der Vielzahl von Frames mit Stimme.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich auf eine selektive Geräuschunterdrückung während einer automatischen Spracherkennung.
  • HINTERGRUND
  • Freisprechrecheneinrichtungen wurden in letzter Zeit immer beliebter; dies gilt insbesondere für Fahrzeuge, bei denen ein Sprachbefehl/eine Sprachsteuerung erwünscht sein kann – wobei eine Steuerung über eine Fahrzeugfunktion/Fahrzeugfunktionen unter Verwendung der Stimme des Fahrers ermöglicht wird. Ein Sprachsteuerungssystem kann die Sprache des Fahrers als Eingang annehmen, interpretiert die Sprache und trifft auf der Grundlage der Interpretation der Sprache eine logische Entscheidung (z. B. Ausführen einer Steuerung über eine Fahrzeugfunktion). Wenn der Fahrer einen Sprachbefehlsmodus nutzen kann, kann eine Fahrerablenkung während des Fahrzeugbetriebs minimiert werden und können mit einer Ablenkung in Verbindung stehende Unfälle verhindert werden.
  • Wenn der Fahrer unter Verwendung seiner Stimme versucht, dem Fahrzeug einen Befehl zu erteilen und das Fahrzeug nicht reagiert (oder nicht korrekt reagiert), kann dies natürlich eine Frustration des Fahrers und letztendlich eine größere Ablenkung verursachen als es der Fall wäre, wenn der Fahrer den Befehl nur manuell ausgeführt hätte, ohne die Sprachsteuerung zu versuchen.
  • ZUSAMMENFASSUNG
  • Es ist daher ein Ziel der Erfindung, die Genauigkeit der automatischen Sprachverarbeitung zu verbessern, insbesondere in einer Fahrzeugumgebung.
  • Gemäß einer Ausführungsform der Erfindung wird ein Verfahren zur Front-End-Verarbeitung eines Audiosignals bereitgestellt. Das Verfahren umfasst die Schritte: Identifizieren einer Vielzahl von Frames mit Stimme des Audiosignals; Ermitteln, dass einer oder mehrere der Vielzahl von Frames mit Stimme einen Signal-Rausch-Wert (SNR-Wert) aufweist oder aufweisen, der größer als ein erster vorbestimmter Schwellenwert ist; und basierend auf der Ermittlung Umgehen einer Geräuschunterdrückung für den einen oder die mehreren der Vielzahl von Frames mit Stimme.
  • Gemäß einer anderen Ausführungsform der Erfindung wird ein Verfahren zur Vorverarbeitung eines Audiosignals bereitgestellt. Das Verfahren umfasst die Schritte: Identifizieren einer Vielzahl von sprachdominanten Frames von einem Audiosignal, das durch eine Maschine einer automatischen Spracherkennung (ASR-Maschine) empfangen wird; Klassifizieren der Vielzahl von sprachdominanten Frames in Frames mit Stimme und Frames ohne Stimme; Ermitteln, für jeden der Frames mit Stimme, ob der Signal-Rausch-Abstand (SNR) des Frames mit Stimme größer als ein vorbestimmter Schwellenwert (TV1) ist; und für jeden der Frames mit Stimme mit einem SNR, der größer als der vorbestimmte Schwellenwert (TV1) ist, Bereitstellen der Frames mit Stimme für eine stromabwärtige Verarbeitung ohne Geräuschunterdrückung, und für jeden der Frames mit Stimme mit einem SNR, der kleiner als der vorbestimmte oder gleich dem vorbestimmten Schwellenwert (TV1) ist, Bereitstellen der Frames mit Stimme für eine stromabwärtige Verarbeitung nach dem Durchführen einer Vorverarbeitungs-Geräuschunterdrückung an den Frames mit Stimme.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Hierin nachfolgend werden eine oder mehrere Ausführungsformen der Erfindung in Verbindung mit den beigefügten Zeichnungen beschrieben, in denen gleiche Bezugszeichen gleiche Elemente bezeichnen, und wobei:
  • 1 ein Blockdiagramm ist, das eine Ausführungsform eines Kommunikationssystems zeigt, das das hierin offenbarte Verfahren verwenden kann;
  • 2 ein schematisches Diagramm ist, das eine Vorverarbeitungsstufe (mit einer Geräuschunterdrückungseinrichtung) und eine Stufe einer stromabwärtigen Verarbeitung einer Maschine einer automatischen Spracherkennung (ASR) darstellt;
  • 3 ein Flussdiagramm ist, das eine Ausführungsform einer Verarbeitung von Sprache unter Verwendung der ASR-Maschine darstellt;
  • 4 ein Flussdiagramm ist, das eine Geräuschunterdrückungsausführungsform unter Verwendung der in 2 und 3 gezeigten Geräuschunterdrückungseinrichtung darstellt; und
  • 57 Tabellen tatsächlicher Daten sind, welche eine Erhöhung der ASR-Genauigkeit bei der Verarbeitung von Sprache unter Verwendung der ASR-Maschine, die wie hierin beschrieben ausgestaltet ist, darstellen.
  • DETAILLIERTE BESCHREIBUNG DER DARGESTELLTEN AUSFÜHRUNGSFORM(EN)
  • Das nachstehend beschriebene/die nachstehend beschriebenen Verfahren betrifft/betreffen im Allgemeinen die Verbesserung der Spracherkennungsgenauigkeit. Das/die Verfahren beschreibt/beschreiben ein selektives und intelligentes Entfernen einer Geräuschunterdrückung während der Front-End- oder Vorverarbeitung des Sprachsignals, um diese verbesserte Genauigkeit zu erreichen. Wie es nachstehend ausführlicher beschrieben wird, kann ein Prozess einer automatischen Spracherkennung (ASR von automatic speech recognition) eine Vorverarbeitungsstufe und eine Stufe einer stromabwärtigen Verarbeitung umfassen. Die Vorverarbeitungsstufe kann im Allgemeinen ein Sprachsignal, das inmitten von Hintergrundgeräusch empfangen wird, zur Interpretation während der Stufe einer stromabwärtigen Verarbeitung vorbereiten. Während der Vorverarbeitung können ein(e) oder mehrere Geräuschunterdrückungstechniken oder Algorithmen auf die Sprach-Frames des Sprachsignals angewandt werden, um die Gesamt-ASR-Genauigkeit zu erhöhen – wodurch der Stufe einer stromabwärtigen Verarbeitung ein saubereres Sprachsignal bereitgestellt wird. Es wurde jedoch festgestellt, dass dies in einigen Fällen unerwünschte Musikverzerrungen in die stromabwärtige Stufe einführen kann. Diese Verzerrungen sind unerwünscht, da das Spracherkennungssystem auf der Grundlage des Modells der Wahrnehmung von menschlicher Sprache entworfen ist. Unerwünschte Veränderungen der Sprachamplitude können das Leistungsvermögen des Systems wesentlich beeinflussen. Das hierin beschriebene/die hierin beschriebenen Verfahren zeigt/zeigen, dass durch selektives Anwenden einer Geräuschunterdrückung auf einige der Sprach-Frames und auf andere nicht eine Verbesserung der ASR-Genauigkeit erreicht werden kann.
  • Das Verfahren ist/die Verfahren sind in einer Fahrzeugumgebung dargestellt. Solch eine Umgebung zeigt in geeigneter Weise: (a) wie die ASR-Maschine eines Fahrzeugs Sprachbefehle (Sprachsignale) von einem Fahrzeugbenutzer unter Verwendung eines Fahrzeugaudiosystems empfangen könnte; (b) die Verarbeitung des Sprachbefehls unter Verwendung der ASR-Maschine in dem Fahrzeug; und (c) die Durchführung einer Maßnahme auf der Grundlage des verarbeiteten Sprachbefehls unter Verwendung einer Fahrzeugverarbeitungseinrichtung. Es sei angemerkt, dass die Ausgestaltungen oder Ausführungsformen der ASR-Maschine, die hierin beschrieben sind, in einer beliebigen geeigneten Anwendung oder Umgebung verwendet werden können, und dass die nachstehend beschriebene Fahrzeugumgebung lediglich ein Beispiel ist.
  • Kommunikationssystem –
  • Zuerst auf 1 Bezug nehmend ist eine Betriebsumgebung gezeigt, die ein Mobilfahrzeugkommunikationssystem 10 umfasst und die verwendet werden kann, um das hierin offenbarte Verfahren zu realisieren. Das Kommunikationssystem 10 umfasst allgemein ein Fahrzeug 12, ein oder mehrere drahtlose Trägersysteme 14, ein Bodenkommunikationsnetz 16, einen Computer 18 und ein Call Center 20. Es ist zu verstehen, dass das offenbarte Verfahren mit jeder Anzahl von verschiedenen Systemen verwendet werden kann und nicht speziell auf die hier gezeigte Betriebsumgebung beschränkt ist. Auch sind die Architektur, die Konstruktion, der Aufbau und der Betrieb des Systems 10 sowie seine einzelnen Komponenten in der Technik allgemein bekannt. Somit liefern die folgenden Absätze lediglich einen kurzen Überblick über solch ein Kommunikationssystem 10; andere Systeme, die hier nicht gezeigt sind, könnten jedoch auch das offenbarte Verfahren einsetzen.
  • Das Fahrzeug 12 ist bei der dargestellten Ausführungsform als ein Personenkraftwagen gezeigt, es sei jedoch angemerkt, dass auch jedes andere Fahrzeug verwendet werden kann, das Motorräder, Lastwagen, Geländewagen (SUVs von sports utility vehicles), Wohnmobile (RVs von recreational vehicles), Schiffe, Luftfahrzeuge etc. umfasst. Ein Teil der Fahrzeugelektronik 28 ist in 1 allgemein gezeigt und umfasst eine Telematikeinheit 30, ein Mikrofon 32, einen oder mehrere Druckknöpfe oder andere Steuereingabeeinrichtungen 34, ein Audiosystem 36, eine visuelle Anzeige 38 und ein GPS-Modul 40 sowie eine Anzahl von Fahrzeugsystemmodulen (VSMs von vehicle system modules) 42. Einige dieser Einrichtungen können direkt mit der Telematikeinheit verbunden sein, wie beispielsweise das Mikrofon 32 und der Druckknopf/die Druckknöpfe 34, wohingegen andere indirekt unter Verwendung einer oder mehrerer Netzverbindungen, wie beispielsweise eines Kommunikationsbusses 44 oder eines Unterhaltungsbusses 46, verbunden sind. Beispiele geeigneter Netzverbindungen umfassen ein Controller Area Network (CAN), einen Media Oriented System Transfer (MOST), ein Local Interconnection Network (LIN), ein Local Area Network (LAN) und andere geeignete Verbindungen, wie beispielsweise Ethernet oder andere, die den bekannten ISO-, SAE- und IEEE-Standards und -Spezifikationen entsprechen, nur um einige zu nennen.
  • Die Telematikeinheit 30 kann eine OEM-Einrichtung (eingebettet) oder eine Nachrüsteinrichtung sein, die in dem Fahrzeug eingebaut ist und die eine drahtlose Sprach- und/oder Datenübermittlung über das drahtlose Trägersystem 14 und über einen drahtlosen Netzbetrieb ermöglicht. Dies ermöglicht dem Fahrzeug, mit dem Call Center 20, anderen telematikfähigen Fahrzeugen oder einer anderen Entität oder Einrichtung zu kommunizieren. Die Telematikeinheit verwendet vorzugsweise Funkübertragungen, um einen Kommunikationskanal (einen Sprachkanal und/oder einen Datenkanal) mit dem drahtlosen Trägersystem 14 herzustellen, sodass Sprach- und/oder Datenübertragungen über den Kanal gesendet und empfangen werden können. Durch Bereitstellen von sowohl einer Sprach- als auch einer Datenübermittlung ermöglicht die Telematikeinheit 30 dem Fahrzeug, eine Anzahl von verschiedenen Diensten anzubieten, die jene umfassen, die mit Navigation, Telefonie, Notfallunterstützung, Diagnose, Infotainment etc. in Beziehung stehen. Die Daten können entweder über eine Datenverbindung, wie beispielsweise über eine Paketdatenübertragung über einen Datenkanal, oder über einen Sprachkanal unter Verwendung von in der Technik bekannten Techniken gesendet werden. Für kombinierte Dienste, die sowohl eine Sprachkommunikation (z. B. mit einem menschlichen Berater oder einer Sprachausgabeeinheit an dem Call Center 20) als auch eine Datenkommunikation (z. B. um GPS-Ortsdaten oder Fahrzeugdiagnosedaten für das Call Center 20 bereitzustellen) umfassen, kann das System einen einzelnen Anruf über einen Sprachkanal verwenden und nach Bedarf zwischen einer Sprach- und einer Datenübertragung über den Sprachkanal umschalten, und dies kann unter Verwendung von Fachleuten bekannten Techniken erfolgen.
  • Gemäß einer Ausführungsform verwendet die Telematikeinheit 30 eine zellulare Kommunikation gemäß entweder GSM- oder CDMA-Standards und umfasst sie somit einen standardisierten zellularen Chipsatz 50 für Sprachübermittlungen wie Freisprechanrufe, ein Drahtlosmodem für eine Datenübertragung, eine elektronische Verarbeitungseinrichtung 52, eine oder mehrere digitale Speichereinrichtungen 54 und eine Dualantenne 56. Es sei angemerkt, dass das Modem entweder durch eine Software realisiert sein kann, die in der Telematikeinheit gespeichert ist und durch den Prozessor 52 ausgeführt wird, oder dass es eine separate Hardwarekomponente sein kann, die sich in der Telematikeinheit 30 oder außerhalb dieser befindet. Das Modem kann unter Verwendung jeder Anzahl von verschiedenen Standards oder Protokollen arbeiten, wie beispielsweise EVDO, CDMA, GPRS und EDGE. Ein drahtloser Netzbetrieb zwischen dem Fahrzeug und anderen vernetzten Einrichtungen kann auch unter Verwendung der Telematikeinheit 30 ausgeführt werden. Zu diesem Zweck kann die Telematikeinheit 30 ausgestaltet sein, um gemäß einem oder mehreren drahtlosen Protokollen, wie beispielsweise einem beliebigen der IEEE 802.11-Protokolle, WiMAX oder Bluetooth, drahtlos zu kommunizieren. Bei einer Verwendung für eine paketvermittelte Datenübermittlung, wie beispielsweise TCP/IP, kann die Telematikeinheit mit einer statischen IP-Adresse konfiguriert sein oder kann sie aufgebaut sein, um automatisch eine zugeordnete IP-Adresse von einer anderen Einrichtung an dem Netz, wie beispielsweise einem Router, oder von einem Netzadressenserver zu empfangen.
  • Der Prozessor 52 kann jeder Typ von Einrichtung sein, der elektronische Anweisungen verarbeiten kann, und kann Mikroprozessoren, Mikrocontroller, Host-Prozessoren, Controller, Fahrzeugkommunikationsprozessoren und anwendungsspezifische integrierte Schaltkreise (ASICs von application specific integrated circuits) umfassen. Er kann ein dedizierter Prozessor sein, der nur für die Telematikeinheit 30 verwendet wird, oder er kann mit anderen Fahrzeugsystemen geteilt werden. Der Prozessor 52 führt verschiedene Typen von digital gespeicherten Anweisungen aus, wie beispielsweise Software- oder Firmwareprogramme, die in dem Speicher 54 gespeichert sind und der Telematikeinheit ermöglichen, eine große Vielzahl von Diensten bereitzustellen. Beispielsweise kann der Prozessor 52 Programme ausführen oder Daten verarbeiten, um mindestens einen Teil des hierin erläuterten Verfahrens auszuführen.
  • Die Telematikeinheit 30 kann verwendet werden, um einen vielseitigen Bereich von Fahrzeugdiensten bereitzustellen, die eine drahtlose Übermittlung zu und/oder von dem Fahrzeug umfassen. Solche Dienste umfassen: Turn-by-Turn-Anweisungen und andere navigationsbezogene Dienste, die in Verbindung mit dem GPS-basierten Fahrzeugnavigationsmodul 40 bereitgestellt werden; eine Airbag-Einsatzbenachrichtigung und andere Notfall- oder Pannenhilfedienste, die in Verbindung mit einem oder mehreren Kollisionssensorschnittstellenmodulen bereitgestellt werden, wie beispielsweise einem Karosseriesteuermodul (nicht gezeigt); eine Diagnoseberichterstattung unter Verwendung eines oder mehrerer Diagnosemodule; und Infotainment-bezogene Dienste, bei denen Musik, Webseiten, Filme, Fernsehprogramme, Videospiele und/oder andere Informationen durch ein Infotainment-Modul (nicht gezeigt) heruntergeladen werden und für eine sofortige oder spätere Wiedergabe gespeichert werden. Die oben aufgelisteten Dienste sind keineswegs eine vollständige Liste aller Fähigkeiten der Telematikeinheit 30, sondern sind lediglich eine Aufzählung einiger der Dienste, die die Telematikeinheit anbieten kann.
  • 1 zeigt, dass die Telematikeinheit 30 auch eine Maschine oder ein Modul 96 einer automatischen Spracherkennung (ASR) umfassen kann. Die ASR-Maschine kann eine beliebige Einrichtung sein, die ausgestaltet ist, um menschliche Sprache oder Äußerungen zu empfangen und die Sprache in einem von einem Computer lesbaren Format (oder einem von einem Computer interpretierbaren Format) zu interpretieren. Die ASR-Maschine 96 kann mit anderen elektronischen Einrichtungen gekoppelt sein (z. B. über die Busse 44, 46); somit kann, sobald die Sprache durch die ASR-Maschine interpretiert wurde, die Interpretation als Befehl oder Steuersignal übermittelt werden (z. B. an ein Steuermodul oder eine andere Einrichtung in dem Fahrzeug 12). Es sei angemerkt, dass, während die ASR-Maschine als Teil der Telematikeinheit 30 gezeigt ist, dies auch nur ein Beispiel ist. Die ASR-Maschine könnte eine separate Einrichtung oder ein Teil eines anderen Fahrzeugsystems sein.
  • Ferner sei angemerkt, dass mindestens einige der zuvor genannten Module in Form von Softwareanweisungen realisiert sein könnten, die innerhalb oder außerhalb der Telematikeinheit 30 gespeichert sind, dass sie Hardwarekomponenten sein könnten, die sich innerhalb oder außerhalb der Telematikeinheit 30 befinden, oder dass sie miteinander oder mit anderen Systemen, die sich in dem Fahrzeug befinden, integriert sein könnten und/oder von diesen gemeinsam genutzt werden könnten, nur um einige Möglichkeiten zu nennen. In dem Fall, dass die Module als VSMs 42 realisiert sind, die außerhalb der Telematikeinheit 30 angeordnet sind, könnten sie den Fahrzeugbus 44 verwenden, um Daten und Befehle mit der Telematikeinheit auszutauschen.
  • Das GPS-Modul 40 empfängt Funksignale von einer Konstellation 60 von GPS-Satelliten. Aus diesen Signalen kann das Modul 40 die Fahrzeugposition ermitteln, die verwendet wird, um dem Fahrer des Fahrzeugs Navigations- und andere positionsbezogene Dienste bereitzustellen. Eine Navigationsinformation kann an der Anzeige 38 (oder an einer anderen Anzeige innerhalb des Fahrzeugs) dargestellt werden oder kann verbal dargestellt werden, wie es bei einem Bereitstellen einer Turn-by-Turn-Navigation der Fall ist. Die Navigationsdienste können unter Verwendung eines dedizierten fahrzeuginternen Navigationsmoduls (das Teil des GPS-Moduls 40 sein kann) bereitgestellt werden, oder es können einige oder alle Navigationsdienste über die Telematikeinheit 30 ausgeführt werden, wobei die Positionsinformation zu Zwecken des Bereitstellens von Navigationskarten, Kartenanmerkungen (Punkte von Interesse, Restaurants etc.), Routenberechnungen und dergleichen für das Fahrzeug an einen entfernten Ort gesendet wird. Die Positionsinformation kann dem Call Center 20 oder einem anderen entfernten Computersystem, wie beispielsweise einem Computer 18, zu anderen Zwecken, wie beispielsweise einer Flottenverwaltung, bereitgestellt werden. Es können auch neue oder aktualisierte Kartendaten von dem Call Center 20 über die Telematikeinheit 30 auf das GPS-Modul 40 heruntergeladen werden.
  • Abgesehen von dem Audiosystem 36 und dem GPS-Modul 40 kann das Fahrzeug 12 andere Fahrzeugsystemmodule (VSMs) 42 in Form von elektronischen Hardwarekomponenten umfassen, die an dem Fahrzeug angeordnet sind und typischerweise einen Eingang von einem oder mehreren Sensoren empfangen und den erfassten Eingang verwenden, um Diagnose-, Überwachungs-, Steuerungs-, Berichterstattungs- und/oder andere Funktionen durchzuführen. Jedes der VSMs 42 ist vorzugsweise durch den Kommunikationsbus 44 mit den anderen VSMs sowie mit der Telematikeinheit 30 verbunden und kann programmiert sein, um Fahrzeugsystem- und -teilsystemdiagnosetests auszuführen. Beispielsweise kann ein VSM 42 ein Motorsteuermodul (ECM von engine control module) sein, das verschiedene Aspekte des Motorbetriebs steuert, wie beispielsweise Kraftstoffzündung und Zündzeitpunkt, kann ein anderes VSM 42 ein Antriebsstrangsteuermodul sein, das den Betrieb einer oder mehrerer Komponenten des Fahrzeugantriebsstrangs reguliert, und kann ein anderes VSM 42 ein Karosseriesteuermodul sein, das verschiedene elektrische Komponenten überwacht, die sich an dem Fahrzeug befinden, wie beispielsweise die Zentralverriegelung und die Scheinwerfer des Fahrzeugs. Gemäß einer Ausführungsform ist das Motorsteuermodul mit fahrzeugeigenen Diagnosemerkmalen (OBD-Merkmalen von on-board diagnostic features) ausgestattet, die eine Vielzahl von Echtzeitdaten bereitstellen, wie beispielsweise die, die von verschiedenen Sensoren einschließlich Fahrzeugemissionssensoren empfangen werden und eine standardisierte Reihe von Diagnosefehlercodes (DTCs von diagnostic trouble codes) bereitstellen, die einem Ingenieur ermöglichen, Fehlfunktionen in dem Fahrzeug schnell zu identifizieren und zu beheben. Fachleute werden erkennen, dass die oben erwähnten VSMs nur Beispiele einiger der Module sind, die in dem Fahrzeug 12 verwendet werden können, da auch zahlreiche andere möglich sind.
  • Die Fahrzeugelektronik 28 umfasst auch eine Anzahl von Fahrzeugbenutzerschnittstellen, die Fahrzeuginsassen ein Mittel zum Bereitstellen und/oder Empfangen einer Information bereitstellen und das Mikrofon 32, einen Druckknopf/Druckknöpfe 34, das Audiosystem 36 und die visuelle Anzeige 38 umfassen. Wie hierin verwendet umfasst der Begriff ”Fahrzeugbenutzerschnittstelle” breit jede geeignete Form von elektronischer Einrichtung, die sowohl Hardwareals auch Softwarekomponenten umfasst und sich an dem Fahrzeug befindet und einem Fahrzeugbenutzer ermöglicht, mit einer oder über eine Komponente des Fahrzeugs zu kommunizieren. Das Mikrofon 32 stellt einen Audioeingang für die Telematikeinheit bereit, um dem Fahrer oder einem anderen Insassen zu ermöglichen, Sprachbefehle bereitzustellen und über das drahtlose Trägersystem 14 Freisprechanrufe auszuführen. Zu diesem Zweck kann es mit einer fahrzeugeigenen automatisierten Sprachverarbeitungseinheit verbunden sein, die eine in der Technik bekannte Mensch-Maschine-Schnittstellentechnologie (HMI-Technologie von human-machine interface technology) verwendet. Der Druckknopf/die Druckknöpfe 34 ermöglicht/ermöglichen eine manuelle Benutzereingabe in die Telematikeinheit 30, um drahtlose Telefonanrufe zu initiieren und andere Daten, eine Antwort oder einen Steuereingang bereitzustellen. Es können separate Druckknöpfe verwendet werden, um im Gegensatz zu regulären Dienstunterstützungsanrufen an das Call Center 20 Notrufe zu initiieren. Das Audiosystem 36 stellt einen Audioausgang für einen Fahrzeuginsassen bereit und kann ein dediziertes, unabhängiges System oder ein Teil des primären Fahrzeugaudiosystems sein. Gemäß der bestimmten hier gezeigten Ausführungsform ist das Audiosystem 36 funktional mit sowohl dem Fahrzeugbus 44 als auch dem Unterhaltungsbus 46 gekoppelt und kann es eine AM-, FM- und Satellitenradio-, CD-, DVD- und eine andere Multimediafunktionalität bereitstellen. Diese Funktionalität kann in Verbindung mit oder unabhängig von dem oben beschriebenen Infotainment-Modul bereitgestellt werden. Die visuelle Anzeige 38 ist vorzugsweise eine Graphikanzeige, wie beispielsweise ein Touchscreen an dem Armaturenbrett, oder eine Head-Up-Anzeige, die an der Windschutzscheibe reflektiert wird, und kann verwendet werden, um eine Vielzahl von Eingabe- und Ausgabefunktionen bereitzustellen. Es können auch verschiedene andere Fahrzeugbenutzerschnittstellen verwendet werden, da die Schnittstellen von 1 nur ein Beispiel einer bestimmten Realisierung sind.
  • Ferner sei angemerkt, dass zumindest ein Teil der Fahrzeugelektronik 28 konfiguriert sein kann, um mit der ASR-Maschine 96 zu arbeiten. Beispielsweise kann das Audiosystem 36 Sprache (z. B. ein Sprachsignal oder einen Spracheingang) für die ASR-Maschine über das Mikrofon 32 bereitstellen. Zusätzlich können ein oder mehrere Druckknöpfe 34 die ASR-Maschine warten lassen oder bereit halten, um Sprache von einem Fahrzeugbenutzer zu empfangen. Wie hierin verwendet kann der Fahrzeugbenutzer ein Bediener/Fahrer des Fahrzeugs 12, ein Fahrgast des Fahrzeugs oder eine Person in der Nähe des Fahrzeugs 12 sein. Ferner muss der Fahrzeugbenutzer nicht der Besitzer des Fahrzeugs 12 sein (z. B. kann der Fahrzeugbenutzer ein Halter oder ein Lizenzinhaber sein).
  • Das drahtlose Trägersystem 14 ist vorzugsweise ein Mobiltelefonsystem, das mehrere Mobilfunkmasten 70 (nur einer gezeigt), eine oder mehrere Mobilfunkvermittlungsstellen (MSCs von mobile switching centers) 72 sowie beliebige andere Netzkomponenten umfasst, die erforderlich sind, um das drahtlose Trägersystem 14 mit dem Bodennetz 16 zu verbinden. Jeder Mobilfunkmast 70 umfasst sendende und empfangende Antennen und eine Basisstation, wobei die Basisstationen von unterschiedlichen Mobilfunkmasten entweder direkt oder über ein Zwischengerät, wie beispielsweise einen Basisstationscontroller, mit der MSC 72 verbunden sind. Das zellulare System 14 kann jede geeignete Kommunikationstechnologie realisieren, die beispielsweise analoge Technologien, wie beispielsweise AMPS, oder die neueren digitalen Technologien, wie beispielsweise CDMA (z. B. CDMA2000) oder GSM/GPRS, umfasst. Fachleute werden erkennen, dass verschiedene Mobilfunkmast/Basisstation/MSC-Anordnungen möglich sind und mit dem drahtlosen System 14 verwendet werden könnten. Beispielsweise könnten die Basisstation und der Mobilfunkmast zusammen an dem gleichen Ort angeordnet sein, oder sie könnten entfernt voneinander angeordnet sein, könnte jede Basisstation für einen einzelnen Mobilfunkmast verantwortlich sein oder könnte eine einzelne Basisstation verschiedene Mobilfunkmasten bedienen und könnten verschiedene Basisstationen mit einer einzelnen MSC gekoppelt sein, nur um einige der möglichen Anordnungen zu nennen.
  • Abgesehen von einem Verwenden des drahtlosen Trägersystems 14 kann ein anderes drahtloses Trägersystem in Form einer Satellitenkommunikation verwendet werden, um eine unidirektionale oder bidirektionale Kommunikation mit dem Fahrzeug bereitzustellen. Dies kann unter Verwendung eines oder mehrerer Kommunikationssatelliten 62 und einer Uplink-Übertragungsstation 64 erfolgen. Eine unidirektionale Kommunikation kann beispielsweise Satellitenfunkdienste umfassen, bei denen Programminhalt (Nachrichten, Musik, etc.) durch die Übertragungsstation 64 empfangen wird, für ein Hochladen verpackt wird und dann an den Satelliten 62 gesendet wird, der die Programme an Teilnehmer ausstrahlt. Eine bidirektionale Kommunikation kann beispielsweise Satellitentelefoniedienste umfassen, die den Satelliten 62 verwenden, um Telefonverkehr zwischen dem Fahrzeug 12 und der Station 64 weiterzuleiten. Bei einer Verwendung kann diese Satellitentelefonie entweder zusätzlich zu dem drahtlosen Trägersystem 14 oder anstatt dessen eingesetzt werden.
  • Das Bodennetz 16 kann ein herkömmliches bodenbasiertes Telekommunikationsnetz sein, das mit einem oder mehreren Festnetztelefonen verbunden ist und das drahtlose Trägersystem 14 mit dem Call Center 20 verbindet. Beispielsweise kann das Bodennetz 16 ein Fernsprechnetz (PSTN von public switched telephone network) umfassen, wie beispielsweise jenes, das verwendet wird, um eine Festnetztelefonie, paketvermittelte Datenübermittlungen und die Internetinfrastruktur bereitzustellen. Ein oder mehrere Segmente des Bodennetzes 16 könnten durch die Verwendung eines standardisierten drahtgebundenen Netzes, eines Faser- oder anderen optischen Netzes, eines Kabelnetzes, von Hochspannungsleitungen, anderen drahtlosen Netzen, wie beispielsweise Wireless Local Area Networks (WLANs), oder Netzen, die einen drahtlosen Breitbandzugriff (BWA von broadband wireless access) bereitstellen, oder jeder Kombination hiervon realisiert sein. Ferner muss das Call Center 20 nicht über das Bodennetz 16 verbunden sein, sondern könnte es ein Drahtlostelefoniegerät umfassen, sodass es direkt mit einem drahtlosen Netz, wie beispielsweise dem drahtlosen Trägersystem 14, kommunizieren kann.
  • Der Computer 18 kann einer einer Anzahl von Computern sein, auf die über ein privates oder öffentliches Netz, wie beispielsweise das Internet, zugegriffen werden kann. Jeder solche Computer 18 kann für einen oder mehrere Zwecke, wie beispielsweise einen Web-Server, verwendet werden, auf den durch das Fahrzeug über die Telematikeinheit 30 und den drahtlosen Träger 14 zugegriffen werden kann. Andere derartige Computer 18, auf die zugegriffen werden kann, können beispielsweise umfassen: einen Computer einer Dienstzentrale, an dem Diagnoseinformationen und andere Fahrzeugdaten von dem Fahrzeug über die Telematikeinheit 30 hochgeladen werden können; einen Client-Computer, der durch den Fahrzeughalter oder einen anderen Teilnehmer zu Zwecken wie beispielsweise Zugreifen auf oder Empfangen von Fahrzeugdaten oder Einstellen oder Konfigurieren von Teilnehmervorlieben oder Steuern von Fahrzeugfunktionen verwendet wird; oder einen dritten Speicher, für den oder von dem Fahrzeugdaten oder andere Informationen geliefert werden, entweder durch Kommunizieren mit dem Fahrzeug 12 oder dem Call Center 20 oder beiden. Ein Computer 18 kann auch zum Bereitstellen einer Internetkonnektivität, wie beispielsweise von DNS-Diensten, oder als ein Netzadressenserver, der DHCP oder ein anderes geeignetes Protokoll verwendet, um dem Fahrzeug 12 eine IP-Adresse zuzuordnen, verwendet werden.
  • Das Call Center 20 ist entworfen, um der Fahrzeugelektronik 28 eine Anzahl von verschiedenen System-Backend-Funktionen bereitzustellen und umfasst gemäß der hier gezeigten beispielhaften Ausführungsform allgemein eine(n) oder mehrere Schalter 80, Server 82, Datenbanken 84, menschliche Berater 86 sowie ein automatisiertes Sprachausgabesystem (VRS von voice response system) 88, die alle in der Technik bekannt sind. Diese verschiedenen Call Center-Komponenten sind vorzugsweise über ein drahtgebundenes oder drahtloses lokales Netz 90 miteinander gekoppelt. Der Schalter 80, der ein Telekommunikationsanlagenschalter (PBX-Schalter von private branch exchange switch) sein kann, leitet eingehende Signale derart weiter, dass Sprachübertragungen für gewöhnlich entweder durch ein normales Telefon an den menschlichen Berater 86 oder unter Verwendung von VoIP an das automatisierte Sprachausgabesystem 88 gesendet werden. Das Telefon des menschlichen Beraters kann auch VoIP verwenden, wie es durch die gestrichelte Linie in 1 gezeigt ist. VoIP und andere Datenübermittlungen über den Schalter 80 werden über ein Modem (nicht gezeigt) realisiert, das zwischen dem Schalter 80 und dem Netz 90 verbunden ist. Die Datenübertragungen werden über das Modem an den Server 82 und/oder die Datenbank 84 weitergeleitet. Die Datenbank 84 kann eine Kontoinformation, wie beispielsweise eine Teilnehmerauthentifizierungsinformation, Fahrzeugidentifikatoren, Profilaufzeichnungen, Verhaltensmuster und andere entsprechende Teilnehmerinformationen, speichern. Datenübertragungen können auch durch drahtlose Systeme, wie beispielsweise 802.11x, GPRS und dergleichen, ausgeführt werden. Obwohl die gezeigte Ausführungsform als in Verbindung mit einem mit Personal besetzten Call Center 20 unter Verwendung des menschlichen Beraters 86 verwendet beschrieben wurde, sei angemerkt, dass das Call Center stattdessen das VRS 88 als einen automatisierten Berater verwenden kann oder eine Kombination aus dem VRS 88 und dem menschlichen Berater 86 verwendet werden kann.
  • Verfahren –
  • Nun auf 2 Bezug nehmend ist ein schematisches Diagramm gezeigt, das einen Fahrzeugbenutzer, der Sprache in das Mikrofon 32 liefert, eine Vorverarbeitungsstufe 210, eine Stufe einer stromabwärtigen Verarbeitung und eine Stufe 280 einer zusätzlichen Verarbeitung darstellt. Die Vorverarbeitungsstufe 210 und die Stufe 220 einer stromabwärtigen Verarbeitung zeigen schematisch eine Ausführungsform der ASR-Maschine 96; z. B. können diese Stufen in einer einzelnen elektronischen Einrichtung oder einem einzelnen elektronischen Modul oder in separaten Einrichtungen/Modulen ausgestaltet sein. Ferner können die Stufen 210, 220 in Software, Firmware, Hardware oder einer beliebigen Kombination hiervon realisiert sein.
  • Die Vorverarbeitungsstufe 210 kann eine Stimmaktivitätsdetektionseinrichtung 222, einen Stimme-ohne Stimme-Klassifizierer 224, eine Signal-Rausch-Bewertungseinrichtung (SNR-Bewertungseinrichtung von signal-to-noise evaluator) 226 und eine Geräuschunterdrückungseinrichtung 228 umfassen.
  • Die Stimmaktivitätsdetektionseinrichtung 222 kann ein ankommendes Audiosignal, das aus der Äußerung des Benutzers und Geräuschen besteht, über das Mikrofon 32 empfangen. Die Stimmaktivitätsdetektionseinrichtung kann dann ein Grundrauschen (z. B. eine Annäherung des Hintergrund- oder Basisgeräuschs) ermitteln und kann die Sprach-Frames oder sprachdominanten Frames, die der Äußerung des Benutzers zugehörig sind, ermitteln. Die Sprach-Frames können sowohl Frames mit Stimme als auch Frames ohne Stimme umfassen, wie diese Begriffe vom Fachmann verstanden werden. Ferner können die verbleibenden Frames Frames ohne Sprache (z. B. Geräuschlosigkeits-Frames) sein.
  • Der Stimme-ohne Stimme-Klassifizierer 224 kann jeden der Sprach-Frames entweder als Sprach-Frame mit Stimme oder ohne Stimme ermitteln oder klassifizieren. Eine derartige Klassifizierung kann durch verschiedene bekannte Techniken durchgeführt werden, die nicht auf eine Tonhöhen- und Formantidentifikation und -analyse beschränkt sind.
  • Die SNR-Bewertungseinrichtung 226 kann die relative Signalstärke der klassifizierten Sprach-Frames ermitteln. Zum Beispiel kann ein Sprach-Frame mit Stimme oder ohne Stimme mit einem oder mehreren vorbestimmten Schwellenwerten verglichen werden, um zu ermitteln, ob der Sprach-Frame größer als ein erster vorbestimmter Schwellenwert ist. Wie es nachstehend ausführlicher erklärt wird, kann der gleiche Sprach-Frame bei zumindest einer Ausführungsform auch mit einem zweiten, dritten etc. vorbestimmten Schwellenwert verglichen werden.
  • Die Geräuschunterdrückungseinrichtung 228 ist mit einem Werkzeugkasten mit mehreren Unterdrückungswerkzeugen 230 gezeigt. Die Werkzeuge 230 können eine beliebige geeignete Einrichtung oder einen beliebigen geeigneten Algorithmus zum Minimieren, Aufheben oder Unterdrücken eines Geräuschs in den Sprach-Frames umfassen. Nicht einschränkende Beispiele für Werkzeuge 230 umfassen: Filtereinrichtungen, Geräuschreduzierungseinrichtungen (NR von noise reducers), dynamische Geräuschreduzierungseinrichtungen (DNR von dynamic noise reducers), Echokompensatoren, Sprachqualitätsalgorithmen (VQ-Algorithmen von voice quality algorithms) und (einen) Verstärkungscontroller. Die Werkzeuge können einzeln oder in Kombination verwendet werden – darüber hinaus können die Werkzeuge falls gewünscht wiederholt oder iterativ verwendet werden.
  • Nun auf die Stufe 220 einer stromabwärtigen Verarbeitung von 2 Bezug nehmend ist eine Sequenz von vier Unterstufen zum Interpretieren der Frames mit Sprache und ohne Sprache gezeigt: eine Merkmalsextraktionsunterstufe 240, eine Klassifizierungsunterstufe 250, eine Kombinationsunterstufe 260 und eine Decodierungsunterstufe 270. Diese sind lediglich dazu gedacht, eine stromabwärtige Verarbeitung zu veranschaulichen und sollen nicht einschränkend sein; z. B. sind auch mehr oder weniger oder sogar verschiedene Unterstufen möglich. Die vier Unterstufen 240, 250, 260, 270 und die Techniken zum Realisieren solcher Unterstufen sind bekannt. Nicht einschränkende Beispiele einer Merkmalsextraktion, die in Unterstufe 240 verwendet wird, umfassen verschiedene Werkzeuge 242, wie beispielsweise: lineare prädiktive Codes (LPC von linear predictive codes), perzeptuelle lineare Vorhersage (PLP von perceptual linear prediction), Mel-Frequenz-Cepstrum-Koeffizienten (MFCC von Mel frequency cepstral coefficients) und PLP-Relativspektralverfahren (PLP-RASTA von PLP-relative-spectra). Nicht einschränkende Beispiele für die Klassifizierung, die in Unterstufe 250 verwendet wird, umfassen verschiedene Werkzeuge 252, wie beispielsweise: K-nächste-Nachbarn (KNN von K-nearest neighbor), Parzen-Fenster, Verzweigung und Schranke (BnB von branch-and-bound), mehrlagige Perzeptrons (MLP von multilayer perceptrons) und dynamische Zeitverzerrung (DTW von dynamic time warping). Die Kombinationsunterstufe 260 umfasst das Kombinieren oder Mischen der Ausgänge der Klassifizierungsunterstufe. Und nicht einschränkende Beispiele für die Decodierung, die in Unterstufe 270 verwendet wird, umfassen die Verwendung eines Decodierers 272 mit verschiedenen anderen Werkzeugen; z. B. Werkzeugen 274 (z. B. Hidden Markov-Modelle (HMM), Bayessche Netze, etc.), Werkzeugen 276 (Sprachmodellierung (LM von language modeling)), Werkzeugen 278 (Lexikon (LEX)) oder eine beliebige Kombination hiervon.
  • Die zusätzliche Verarbeitung 280 ist allgemein dargestellt. Die Verarbeitung 280 kann eine beliebige Nachverarbeitung der Frames mit Sprache und ohne Sprache umfassen. Bei einer Ausführungsform kann Schritt 280 umfassen, dass auf die decodierten Frames mit Sprache und ohne Sprache eingewirkt wird; z. B. unter Verwendung der interpretierten Informationen der Frames mit Sprache und ohne Sprache, um einen Sprachbefehl eines Fahrzeugbenutzers auszuführen. Somit sollte Schritt 280 breit ausgelegt werden, um das Senden eines elektrischen Signals an eine geeignete Einrichtung oder ein geeignetes Modul, die oder das sich an einem anderen Ort in dem Fahrzeug 12 befindet, oder andere wünschenswerte Maßnahmen, die der Sprache des Benutzers zugehörig sind, zu umfassen.
  • 2 veranschaulicht ferner ein Flussdiagramm, das mit dem Empfangen einer Äußerung des Benutzers in das Mikrofon 32 beginnt. Die Äußerung kann durch die Stimmaktivitätsdetektionseinrichtung 222, dann den Stimme-ohne Stimme-Klassifizierer 224 und dann die SNR-Bewertungseinrichtung 226 verarbeitet werden. Wie es nachstehend (3) erklärt wird kann, wenn die SNR-Bewertungseinrichtung ermittelt, dass der SNR eines Sprach-Frames einen vorbestimmten Schwellenwert übersteigt, dieser Sprach-Frame die Geräuschunterdrückungseinrichtung 228 umgehen. Und Sprach-Frames mit einem SNR, der kleiner als der (oder gleich dem) Schwellenwert ist, können einer Geräuschunterdrückung unter Verwendung eines oder mehrerer Werkzeuge 230 der Unterdrückungseinrichtung 228 unterzogen werden. In einigen Fällen können auch die Frames ohne Sprache einer Geräuschunterdrückung über die Unterdrückungseinrichtung 228 unterzogen werden. Gemäß der Darstellung endet die Vorverarbeitungsstufe 210 dann, und danach gelangen die Sprach-Frames (und die Frames ohne Sprache) weiter zu der Stufe 220 einer stromabwärtigen Verarbeitung und können sie die Unterstufen 240, 250, 260, 270 durchlaufen, um die Interpretation der Äußerung abzuschließen. Beim Verlassen der Decodierungsunterstufe 270 endet die Stufe einer stromabwärtigen Verarbeitung, und der Ausgang kann, muss jedoch nicht, der zusätzlichen Verarbeitung 280 bereitgestellt werden.
  • Nun auf 3 Bezug nehmend veranschaulicht das Diagramm ein Verfahren 300 zum Vorverarbeiten von Sprache in der Vorverarbeitungsstufe 210 der ASR-Maschine 96. Einige oder alle der Schritte können unter Verwendung des Prozessors 52 der Telematikeinheit 30 durchgeführt werden. Das Verfahren beginnt mit Schritt 310, in dem die Stimmaktivitätsdetektionseinrichtung 222 ein Grundrauschen und mehrere Sprach-Frames (mit Stimme, ohne Stimme), die einer Benutzeräußerung zugehörig sind, aus anderen Audio-Frames (z. B. Frames ohne Sprache) detektiert. Die Sprach-Frames können dem Stimme-ohne Stimme-Klassifizierer 224 bereitgestellt werden (Schritt 320). Und die Frames ohne Sprache können in Schritt 350 direkt der Geräuschunterdrückungseinrichtung bereitgestellt werden; alternativ können die Frames ohne Sprache direkt dem Schritt 360 einer stromabwärtigen Verarbeitung bereitgestellt werden. Beide Schritte 350 und 360 werden nachstehend ausführlicher erläutert. Nach Schritt 310 fährt das Verfahren mit Schritt 320 fort.
  • In Schritt 320 ermittelt die ASR-Maschine 96 – oder genauer gesagt der Stimme-ohne Stimme-Klassifizierer 224 – für jeden der Sprach-Frames, ob sie Stimme aufweisen oder keine Stimme aufweisen. Die Ermittlung Stimme/ohne Stimme kann eine Tonhöhen- und/oder Formantanalyse oder ein beliebiges anderes Verfahren, das Fachleuten bekannt ist, umfassen. Wenn ermittelt wird, dass der Sprach-Frame keine Stimme aufweist, fährt das Verfahren 300 mit Schritt 370 fort, und wenn ermittelt wird, dass der Sprach-Frame eine Stimme aufweist, fährt das Verfahren mit Schritt 330 fort.
  • Schritt 330 findet an der SNR-Bewertungseinrichtung 226 statt. Für jeden Frame mit Stimme wird ein Signal-Rausch-Wert (SNR-Wert) ermittelt, und der SNR-Wert wird mit einem (oder gegen einen) vorbestimmten Schwellenwert (TV1), der in dem Speicher 54 gespeichert sein kann, verglichen. Wenn der SNR-Wert größer als der Schwellenwert TV1 ist, umgeht der Frame mit Stimme die Geräuschunterdrückungseinrichtung 228 (340a); d. h. der Frame mit Stimme wird dem Schritt 360 einer stromabwärtigen Verarbeitung ohne Geräuschunterdrückung bereitgestellt (d. h. der Stufe 220 einer stromabwärtigen Verarbeitung bereitgestellt). Wenn jedoch der SNR-Wert kleiner als der oder gleich dem Schwellenwert TV1 ist, wird der Frame mit Stimme dem Geräuschunterdrückungsschritt 350 bereitgestellt, bevor er stromabwärtig verarbeitet wird (d. h. zuerst der Geräuschunterdrückungseinrichtung 228 bereitgestellt).
  • Bezug nehmend auf Schritt 360 werden hier Audio-Frames unter Verwendung einer oder mehrerer der verschiedenen Techniken einer stromabwärtigen Verarbeitung, die zuvor beschrieben wurden (z. B. Merkmalsextraktion, Klassifizierung, Kombination, Decodierung), verarbeitet, um die Äußerung des Benutzers zu interpretieren.
  • Nach Schritt 360 kann das Verfahren 300 eine zusätzliche Verarbeitung in Schritt 365 durchführen. Die Ausführungsformen von Schritt 365 sind zahlreich und werden von Fachleuten erkannt werden. 3 zeigt Schritt 365 als Durchführung eines Sprachbefehls unter Verwendung der durch die ASR interpretierten Äußerung des Benutzers. Danach endet das Verfahren. Natürlich kann das Verfahren für jede Äußerung, die an dem Mikrofon 32 empfangen wird, wiederholt werden.
  • Zurückkehrend zu den Frames in Schritt 330, die einen SNR-Wert aufweisen, der kleiner als der oder gleich dem Schwellenwert TV1 ist, umgehen diese Frames die Geräuschunterdrückung nicht. Sie gelangen weiter zu Schritt 350 für eine Verarbeitung durch die Geräuschunterdrückungseinrichtung 228. Jede geeignete Geräuschunterdrückungstechnik einschließlich der zuvor beschriebenen kann in Schritt 350 verwendet werden, um ein unerwünschtes Geräusch von den Frames mit Stimme zu entfernen. Nach Schritt 350 kann das Verfahren mit Schritt 360 fortfahren und wie zuvor erläutert fortfahren.
  • Zurückkehrend zu den Frames in Schritt 320, die als keine Stimme aufweisend ermittelt wurden, können diese Frames auch durch die SNR-Bewertungseinrichtung 226 in Schritt 370 bewertet werden. Für jeden Frame ohne Stimme wird ein Signal-Rausch-Wert (SNR-Wert) ermittelt, und der SNR-Wert wird mit einem (oder gegen einen) vorbestimmten Schwellenwert (TU1), der in dem Speicher 54 gespeichert sein kann, verglichen. Wenn der SNR-Wert größer als der Schwellenwert TU1 ist, umgeht der Frame ohne Stimme die Geräuschunterdrückungseinrichtung 228 (340b); d. h. der Frame ohne Stimme wird dem Schritt 360 einer stromabwärtigen Verarbeitung ohne Geräuschunterdrückung bereitgestellt (d. h. der Stufe 220 einer stromabwärtigen Verarbeitung bereitgestellt). Wenn jedoch der SNR-Wert kleiner als der oder gleich dem Schwellenwert TU1 ist, wird der Frame ohne Stimme dem Geräuschunterdrückungsschritt 350 bereitgestellt, bevor er stromabwärtig verarbeitet wird (d. h. zuerst der Geräuschunterdrückungseinrichtung 228 bereitgestellt). Danach fährt das Verfahren 300 wie zuvor beschrieben fort.
  • Es sei angemerkt, dass die SNR-Bewertungseinrichtung, die Schritt 370 zugehörig ist, die gleiche Einrichtung oder der gleiche Schaltkreis sein kann, jedoch nicht muss, wie jene(r), die/der in Schritt 330 verwendet wird. Daher sind verschiedene Realisierungen möglich.
  • Bezug nehmend auf 4 ist eine Ausführungsform des Geräuschunterdrückungsschritts 350 dargestellt. Schritt 350 kann einfach die zuvor beschriebenen Werkzeuge 230 für alle ankommenden Audio-Frames nutzen; oder es kann ein anderer Auswahl- oder Kategorisierungsprozess wie in 4 gezeigt realisiert werden. Beispielsweise können Frames mit Stimme (380) in Schritt 410 (unter Verwendung der SNR-Bewertungseinrichtung 226) einer sekundären Bewertung unterzogen werden. Bei einer Realisierung kann der SNR-Wert für den Frame mit Stimme (380) mit einem zweiten vorbestimmten Schwellenwert (TV2), der in Speicher 54 gespeichert ist, verglichen werden. Frames mit Stimme mit einem SNR-Wert, der kleiner als oder gleich TV1 und größer als TV2 ist, können weiter zu Schritt 420 gelangen – eine erste Ausführungsform einer Unterdrückung eines Geräuschs mit Stimme. Und Frames mit Stimme mit einem SNR-Wert, der kleiner als oder gleich TV2 ist, können weiter zu Schritt 430 gelangen – eine zweite Ausführungsform einer Unterdrückung eines Geräuschs mit Stimme. Die erste und zweite Ausführungsform einer Unterdrückung eines Geräuschs mit Stimme können hinsichtlich Grad oder Niveau an Geräuschunterdrückung variieren; z. B. kann die zweite Ausführungsform eine stärkere Geräuschunterdrückung anwenden als die erste. Bei einer gemeinsamen Betrachtung von 3 und 4 folgt somit: einige Frames mit Stimme können eine Geräuschunterdrückung umgehen (3, Schritt 340a), einige Frames mit Stimme können einen ersten Grad an Geräuschunterdrückung aufweisen (Schritt 420), und andere Frames mit Stimme können einen zweiten Grad an Geräuschunterdrückung aufweisen (Schritt 430).
  • Die vorbestimmten SNR-Schwellenwerte für Frames mit Stimme können beliebige geeignete Werte aufweisen. Bei einer Ausführungsform beträgt TV1 ungefähr 20 Dezibel (dB) und beträgt TV2 ungefähr 6 dB.
  • In 4 können die Frames ohne Stimme in Schritt 440 einer ähnlichen sekundären Bewertung (unter Verwendung der SNR-Bewertungseinrichtung 226) unterzogen werden. Bei einer Realisierung kann der SNR-Wert für den Frame ohne Stimme (390) mit einem zweiten vorbestimmten Schwellenwert (TU2), der in Speicher 54 gespeichert ist, verglichen werden. Frames ohne Stimme mit einem SNR-Wert, der kleiner als oder gleich TU1 und größer als TU2 ist, können weiter zu Schritt 450 gelangen – eine erste Ausführungsform einer Unterdrückung eines Geräuschs ohne Stimme. Und Frames ohne Stimme mit einem SNR-Wert, der kleiner als oder gleich TU2 ist, können weiter zu Schritt 460 gelangen – eine zweite Ausführungsform einer Unterdrückung eines Geräuschs ohne Stimme. Die erste und zweite Ausführungsform einer Unterdrückung eines Geräuschs ohne Stimme können ebenfalls hinsichtlich Grad oder Niveau an Geräuschunterdrückung variieren; z. B. kann wieder die zweite Ausführungsform eine stärkere Geräuschunterdrückung anwenden als die erste. Bei einer gemeinsamen Betrachtung von 3 und 4 folgt somit: einige Frames ohne Stimme können eine Geräuschunterdrückung umgehen (3, Schritt 340b), einige Frames ohne Stimme können einen ersten Grad an Geräuschunterdrückung aufweisen (Schritt 450), und andere Frames ohne Stimme können einen zweiten Grad an Geräuschunterdrückung aufweisen (Schritt 460).
  • Die vorbestimmten SNR-Schwellenwerte für Frames ohne Stimme können wieder beliebige geeignete Werte aufweisen. Bei einer Ausführungsform beträgt TU1 ungefähr 20 Dezibel (dB) und beträgt TU2 ungefähr 6 dB.
  • 4 zeigt, dass ungeachtet dessen, welche Geräuschunterdrückungsausführungsform angewandt wird (Schritte 420, 430, 450, 460), der Prozess weiterhin mit dem Schritt 360 einer stromabwärtigen Verarbeitung (in Übereinstimmung mit 3) fortfährt. Darüber hinaus sollte, während in 4 Sprach-Frames erläutert wurden, dies nicht als Einschränkung betrachtet werden; z. B. können auf ähnliche Weise Frames ohne Sprache verarbeitet werden. Ferner ist, während zwei Ausführungsformen einer Unterdrückung eines Geräuschs mit Stimme und zwei ohne Stimme offenbart wurden, dies lediglich ein Beispiel. Es sind auch drei, vier, etc. Unterdrückungsausführungsformen möglich.
  • Bezug nehmend auf 57 zeigen diese Figuren die Tabellen I, II und II, die tatsächliche Daten bereitstellen, die eine allgemeine Verbesserung der Gesamt-ASR-Genauigkeit, wenn eine Geräuschunterdrückung bei selektiven Sprach-Frames umgangen oder vermieden wird, demonstrieren – insbesondere bei Frames mit Stimme mit einem SNR-Wert, der größer als der erste vorbestimmte Schwellenwert (TV1) ist – siehe 3, Schritt 340a. 5 zeigt eine Testfallspalte (Auflistung variabler Fallkonfigurationen), eine Geräuschreduzierungsspalte (NR-Spalte von Noise Reduction column), eine Spalte einer dynamischen Geräuschreduzierung (DNR von Dynamic Noise Reduction), eine Spalte einer Reduzierung eines tonalen Geräuschs (tonale NR von Tonal Noise Reduction), eine Spalte einer LFE-Rekonstruktion (Low Frequency Estimator Rekonstruktion bzw. Niederfrequenzschätzungs-Rekonstruktion) und eine Spalte Sende Feste Verstärkung. Im Allgemeinen stellt 5 zumindest einige der Schlüsselparameter bereit, die beim Erhalten der in 6 und 7 gezeigten Ergebnisse verwendet werden.
  • 6 zeigt eine Analysespalte einer QNX-Geräuschreduzierung (QNX-NR) einer automatischen Spracherkennung (ASR) (Auflistung variabler Fallkonfigurationen und einer Basis- oder Kontrollfallkonfiguration), eine Gesamtgenauigkeitsspalte, eine Idle_LF-Spalte (Fahren mit Motorleerlauf, Geräusch mit niedriger Frequenz), eine City_80pct-Spalte (Fahren mit 80% Stadtgeräusch), eine Highway_LF-Spalte (Autobahnfahrgeräusch, niedrige Frequenz) und eine Highway_HF-Spalte (Autobahnfahrgeräusch, hohe Frequenz). Die variablen Fallkonfigurationen werden in 7 kombiniert (z. B. ein Mittelwert, ein Durchschnittswert, etc.).
  • 7 zeigt einen Vergleich der Basiskonfiguration mit den variablen Fallkonfigurationen. Die Basiskonfiguration umfasst keine Echokompensation des/der Frames mit Stimme mit einem SNR-Wert, der größer als TV1 ist. Die variable Fallkombination umfasst keine Echokompensation des/der Frames mit Stimme mit einem SNR-Wert, der größer als TV1 ist. 7 zeigt, dass die Gesamtgenauigkeit der Basiskonfiguration höher ist als die Gesamtgenauigkeit der variablen Fallkonfigurationen – was eine ASR-Verbesserung, wenn bei Sprach-Frames selektiv ein Geräusch unterdrückt wird, demonstriert.
  • Somit wurde eine Maschine einer automatischen Spracherkennung offenbart, die selektiv ein Geräusch bei Sprach-Frames während einer Vorverarbeitungsstufe unterdrückt. Eine Geräuschunterdrückung kann umgangen werden, wenn der Signal-Rausch-Abstand (SNR) des Sprach-Frames einen vorbestimmten Schwellenwert übersteigt. Diese Sprach-Frames können Frames mit Stimme sein; und in einigen Fällen können die Sprach-Frames auch Frames ohne Stimme umfassen. Ferner kann bei einigen Ausführungsformen der Grad an Geräuschunterdrückung in Abhängigkeit von der Qualität des Sprach-Frames (z. B. dessen SNR) variieren. Durch selektives Unterdrücken eines Geräuschs während der Vorverarbeitungsstufe verbessert sich die ASR-Genauigkeit, da unerwünschte Töne nicht in eine Stufe einer stromabwärtigen Verarbeitung eingeführt werden.
  • Es ist zu verstehen, dass das Vorstehende eine Beschreibung einer oder mehrerer Ausführungsformen der Erfindung ist. Die Erfindung ist nicht auf die hierin offenbarte(n) bestimmte(n) Ausführungsform(en) beschränkt, sondern ist lediglich durch die nachstehenden Ansprüche definiert. Ferner betreffen die in der vorstehenden Beschreibung enthaltenen Aussagen bestimmte Ausführungsformen und sollen sie nicht als Einschränkungen des Schutzumfangs der Erfindung oder der Definition der in den Ansprüchen verwendeten Begriffe betrachtet werden, außer, wenn ein Begriff oder eine Phrase oben ausdrücklich definiert ist. Verschiedene andere Ausführungsformen und verschiedene Änderungen und Abwandlungen der offenbarten Ausführungsform(en) werden für Fachleute ersichtlich. Alle solchen anderen Ausführungsformen, Änderungen und Abwandlungen sollen als innerhalb des Schutzumfangs der beigefügten Ansprüche liegend betrachtet werden.
  • Wie in dieser Beschreibung und den Ansprüchen verwendet, sollen die Begriffe ”z. B.”, ”zum Beispiel”, ”beispielsweise”, ”wie beispielsweise” und ”wie” und die Verben ”umfassen”, ”aufweisen”, ”einschließen” und ihre anderen Verbformen, wenn sie in Verbindung mit einer Auflistung einer oder mehrerer Komponenten oder anderer Elemente verwendet werden, jeweils als ein offenes Ende aufweisend betrachtet werden, was bedeutet, dass die Auflistung nicht als andere, zusätzliche Komponenten oder Elemente ausschließend betrachtet werden soll. Andere Begriffe sollen unter Verwendung ihrer breitesten vernünftigen Bedeutung betrachtet werden, wenn sie nicht in einem Kontext verwendet werden, der eine andere Interpretation erfordert.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • IEEE 802.11-Protokolle [0018]

Claims (10)

  1. Verfahren zur Front-End-Verarbeitung eines Audiosignals, umfassend die Schritte: Identifizieren einer Vielzahl von Frames mit Stimme des Audiosignals; Ermitteln, dass einer oder mehrere der Vielzahl von Frames mit Stimme einen Signal-Rausch-Wert (SNR-Wert) aufweist oder aufweisen, der größer als ein erster vorbestimmter Schwellenwert ist; und basierend auf der Ermittlung Umgehen einer Geräuschunterdrückung für den einen oder die mehreren der Vielzahl von Frames mit Stimme.
  2. Verfahren nach Anspruch 1, ferner umfassend: Identifizieren einer Vielzahl von Frames ohne Stimme des Audiosignals; Ermitteln, dass einer oder mehrere der Vielzahl von Frames ohne Stimme einen SNR-Wert aufweist oder aufweisen, der größer als ein zweiter vorbestimmter Schwellenwert ist; und basierend auf der Ermittlung Umgehen einer Geräuschunterdrückung für den einen oder die mehreren der Vielzahl von Frames ohne Stimme.
  3. Verfahren nach Anspruch 2, ferner umfassend: Durchführen einer Geräuschunterdrückung für die Vielzahl von Frames mit Stimme, die einen SNR aufweisen, der kleiner als der oder gleich dem ersten vorbestimmten Schwellenwert ist, und für die Vielzahl von Frames ohne Stimme, die einen SNR aufweisen, der kleiner als der oder gleich dem zweiten vorbestimmten Schwellenwert ist.
  4. Verfahren nach Anspruch 2, wobei der erste vorbestimmte Schwellenwert der gleiche ist wie der zweite vorbestimmte Schwellenwert.
  5. Verfahren nach Anspruch 4, ferner umfassend, dass nach den Front-End-Verarbeitungsschritten eine stromabwärtige Verarbeitung des einen oder der mehreren der Vielzahl von Frames mit Stimme und des einen oder der mehreren der Vielzahl von Frames ohne Stimme durchgeführt wird.
  6. Verfahren nach Anspruch 5, wobei das Durchführen der stromabwärtigen Verarbeitung eine Merkmalsextraktionsunterstufe, eine Klassifizierungsunterstufe, eine Kombinationsunterstufe und eine Decodierungsunterstufe umfasst.
  7. Verfahren zur Vorverarbeitung eines Audiosignals, umfassend die Schritte: Identifizieren einer Vielzahl von sprachdominanten Frames von einem Audiosignal, das durch eine Maschine einer automatischen Spracherkennung (ASR-Maschine) empfangen wird; Klassifizieren der Vielzahl von sprachdominanten Frames in Frames mit Stimme und Frames ohne Stimme; Ermitteln, für jeden der Frames mit Stimme, ob der Signal-Rausch-Abstand (SNR) des Frames mit Stimme größer als ein vorbestimmter Schwellenwert (TV1) ist; und für jeden der Frames mit Stimme mit einem SNR, der größer als der vorbestimmte Schwellenwert (TV1) ist, Bereitstellen der Frames mit Stimme für eine stromabwärtige Verarbeitung ohne Geräuschunterdrückung, und für jeden der Frames mit Stimme mit einem SNR, der kleiner als der vorbestimmte oder gleich dem vorbestimmten Schwellenwert (TV1) ist, Bereitstellen der Frames mit Stimme für eine stromabwärtige Verarbeitung nach dem Durchführen einer Vorverarbeitungs-Geräuschunterdrückung an den Frames mit Stimme.
  8. Verfahren nach Anspruch 7, ferner umfassend: für jeden der Frames mit Stimme, bei dem der SNR kleiner als der oder gleich dem vorbestimmten Schwellenwert (TV1) ist, Klassifizieren des SNR in eine oder mehrere SNR-Kategorien, wobei die eine oder die mehreren SNR-Kategorien einer Stärke des SNR des jeweiligen Frames mit Stimme zugehörig sind; und Unterdrücken eines Geräuschs für jeden der jeweiligen Frames mit Stimme gemäß einer der einen oder mehreren SNR-Kategorien.
  9. Verfahren nach Anspruch 7, ferner umfassend: Ermitteln, für jeden der Frames ohne Stimme, ob der Signal-Rausch-Abstand (SNR) des Frames ohne Stimme größer als ein vorbestimmter Schwellenwert (TU1) ist; und für jeden der Frames ohne Stimme mit einem SNR, der größer als der vorbestimmte Schwellenwert (TU1) ist, Bereitstellen der Frames ohne Stimme für eine stromabwärtige Verarbeitung ohne Geräuschunterdrückung, und für jeden der Frames ohne Stimme mit einem SNR, der kleiner als der vorbestimmte oder gleich dem vorbestimmten Schwellenwert (TV1) ist, Bereitstellen der Frames ohne Stimme für eine stromabwärtige Verarbeitung nach dem Durchführen einer Vorverarbeitungs-Geräuschunterdrückung an den Frames ohne Stimme.
  10. Verfahren nach Anspruch 9, ferner umfassend: für jeden der Frames ohne Stimme, bei dem der SNR kleiner als der oder gleich dem vorbestimmten Schwellenwert (TU1) ist, Klassifizieren des SNR in eine oder mehrere SNR-Kategorien, wobei die eine oder die mehreren SNR-Kategorien einer Stärke des SNR des jeweiligen Frames ohne Stimme zugehörig sind; und Unterdrücken eines Geräuschs für jeden der jeweiligen Frames ohne Stimme gemäß einer der einen oder mehreren SNR-Kategorien.
DE102015117380.8A 2014-10-22 2015-10-13 Selektive Geräuschunterdrückung während automatischer Spracherkennung Active DE102015117380B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/520,974 US9830925B2 (en) 2014-10-22 2014-10-22 Selective noise suppression during automatic speech recognition
US14/520,974 2014-10-22

Publications (2)

Publication Number Publication Date
DE102015117380A1 true DE102015117380A1 (de) 2016-04-28
DE102015117380B4 DE102015117380B4 (de) 2020-04-09

Family

ID=55698694

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015117380.8A Active DE102015117380B4 (de) 2014-10-22 2015-10-13 Selektive Geräuschunterdrückung während automatischer Spracherkennung

Country Status (3)

Country Link
US (1) US9830925B2 (de)
CN (1) CN105551484B (de)
DE (1) DE102015117380B4 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016220365A1 (de) 2016-10-18 2018-04-19 Audi Ag Verfahren zum Betreiben einer Audioausgabevorrichtung, Audioausgabevorrichtung für ein Kraftfahrzeug und Kraftfahrzeug

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6754184B2 (ja) * 2014-12-26 2020-09-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識装置及び音声認識方法
US20180350358A1 (en) * 2015-12-01 2018-12-06 Mitsubishi Electric Corporation Voice recognition device, voice emphasis device, voice recognition method, voice emphasis method, and navigation system
US10650621B1 (en) 2016-09-13 2020-05-12 Iocurrents, Inc. Interfacing with a vehicular controller area network
EP3555881B1 (de) 2018-01-23 2020-04-22 Google LLC Selektive anpassung und nutzung der rauschunterdrückungstechnik bei der detektion eines aufrufausdrucks
US11380312B1 (en) * 2019-06-20 2022-07-05 Amazon Technologies, Inc. Residual echo suppression for keyword detection

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
CA2406754C (en) * 1998-04-16 2009-06-30 Dspfactory Ltd. Method and apparatus for noise reduction, particularly in hearing aids
US8019091B2 (en) * 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
US8483854B2 (en) * 2008-01-28 2013-07-09 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multiple microphones
US9820071B2 (en) * 2008-08-31 2017-11-14 Blamey & Saunders Hearing Pty Ltd. System and method for binaural noise reduction in a sound processing device
CN102483926B (zh) * 2009-07-27 2013-07-24 Scti控股公司 在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法
US8515089B2 (en) * 2010-06-04 2013-08-20 Apple Inc. Active noise cancellation decisions in a portable audio device
US8924205B2 (en) * 2010-10-02 2014-12-30 Alon Konchitsky Methods and systems for automatic enablement or disablement of noise reduction within a communication device
US10230346B2 (en) * 2011-01-10 2019-03-12 Zhinian Jing Acoustic voice activity detection
CN103366737B (zh) * 2012-03-30 2016-08-10 株式会社东芝 在自动语音识别中应用声调特征的装置和方法
KR20140031790A (ko) * 2012-09-05 2014-03-13 삼성전자주식회사 잡음 환경에서 강인한 음성 구간 검출 방법 및 장치
US9224404B2 (en) * 2013-01-28 2015-12-29 2236008 Ontario Inc. Dynamic audio processing parameters with automatic speech recognition
US20140278393A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
WO2014168022A1 (ja) * 2013-04-11 2014-10-16 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
US9454976B2 (en) * 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds
JP6206271B2 (ja) * 2014-03-17 2017-10-04 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法及び雑音低減プログラム
US10176823B2 (en) * 2014-05-09 2019-01-08 Apple Inc. System and method for audio noise processing and noise reduction
US9530404B2 (en) * 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IEEE 802.11-Protokolle

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016220365A1 (de) 2016-10-18 2018-04-19 Audi Ag Verfahren zum Betreiben einer Audioausgabevorrichtung, Audioausgabevorrichtung für ein Kraftfahrzeug und Kraftfahrzeug
DE102016220365B4 (de) 2016-10-18 2022-02-17 Audi Ag Verfahren zum Betreiben einer Audioausgabevorrichtung, Audioausgabevorrichtung für ein Kraftfahrzeug und Kraftfahrzeug

Also Published As

Publication number Publication date
US20160118042A1 (en) 2016-04-28
US9830925B2 (en) 2017-11-28
CN105551484B (zh) 2019-09-03
DE102015117380B4 (de) 2020-04-09
CN105551484A (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
DE102015117380B4 (de) Selektive Geräuschunterdrückung während automatischer Spracherkennung
DE102019105269B4 (de) Verfahren zur spracherkennung mit spracherkennungs-arbitrierungslogik
DE102018128006B4 (de) Verfahren zum erzeugen von ausgaben natürlichsprachlicher generierung basierend auf dem benutzersprachstil
DE102017102392A1 (de) Automatische spracherkennung bei stockender sprechweise
DE102008034143B4 (de) Verfahren zur Umgebungsgeräuscheinkopplung für eine Spracherkennung in einem Serienfahrzeug
DE102014109121B4 (de) Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
DE102012218938B4 (de) Verfahren zur Bereitstellung von Freihanddiensten unter Verwendung einer Mobilvorrichtung, die einen drahtlosen Zugriff auf computerbasierte Dienste aufweist
DE102018103188B4 (de) Verfahren zur spracherkennung in einem fahrzeug zur verbesserung der aufgabenerledigung
DE102019111529A1 (de) Automatisierte spracherkennung unter verwendung einer dynamisch einstellbaren hörzeitüberschreitung
DE102012217160B4 (de) Verfahren zum Korrigieren unverständlicher synthetischer Sprache
DE102012220796B4 (de) Verfahren zum Initiieren eines Freisprechkonferenzgesprächs
DE102011120315B4 (de) Anpassung männlicher Akustikmodelle auf der Basis von sprachunabhängigen weiblichen Sprechdaten
DE102018125966A1 (de) System und verfahren zur erfassung von stichworten in einer unterhaltung
DE102017121054A1 (de) Remote-spracherkennung in einem fahrzeug
DE102017121059A1 (de) Identifikation und erzeugung von bevorzugten emoji
DE102012218934A1 (de) Sprachbasierte Nutzerschnittstelle für eine Mobilvorrichtung
DE102014111816A1 (de) Fahrzeugtelematikeinheit und Verfahren zum Bedienen dieser
DE102010044860B4 (de) Modemsignalisierung unter Verwendung von Sprachkomponenten über einen Sprachkanal eines drahtlosen Kommunikationssystems
DE102018128003A1 (de) Neuronales netzwerk zum anwenden bei der spracherkennungsarbitrierung
DE102015105876A1 (de) Verfahren zum Bereitstellen einer Betreiberunterstützung unter Verwendung eines Telematikdienstsystems eines Fahrzeugs
DE102008062542A1 (de) Fahrzeuginterne die Umstände berücksichtigende Spracherkennung
DE102016123616A1 (de) Bestimmen eines Standorts eines Fahrzeugbenutzers nach einem Kollisionsereignis
DE102010034433B4 (de) Verfahren zum Erkennen von Sprache
DE102018125564A1 (de) Reaktionsschnelle aktivierung eines fahrzeugmerkmals
DE102010048912A1 (de) Modemsignalisierung unter Verwendung eines Mehrtonpräfix über einem Sprachkanal eines drahtlosen Kommunikationssystems

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final