DE102011120315A1 - Anpassung männlicher Akustikmodelle auf der Basis von sprachunabhängigen weiblichen Sprechdaten - Google Patents

Anpassung männlicher Akustikmodelle auf der Basis von sprachunabhängigen weiblichen Sprechdaten Download PDF

Info

Publication number
DE102011120315A1
DE102011120315A1 DE102011120315A DE102011120315A DE102011120315A1 DE 102011120315 A1 DE102011120315 A1 DE 102011120315A1 DE 102011120315 A DE102011120315 A DE 102011120315A DE 102011120315 A DE102011120315 A DE 102011120315A DE 102011120315 A1 DE102011120315 A1 DE 102011120315A1
Authority
DE
Germany
Prior art keywords
language
speech
formant
female
acoustic models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102011120315A
Other languages
English (en)
Other versions
DE102011120315B4 (de
Inventor
Gaurav Talwar
Rathinavelu Chengalvarayan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
General Motors LLC
Original Assignee
GM Global Technology Operations LLC
General Motors LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC, General Motors LLC filed Critical GM Global Technology Operations LLC
Publication of DE102011120315A1 publication Critical patent/DE102011120315A1/de
Application granted granted Critical
Publication of DE102011120315B4 publication Critical patent/DE102011120315B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Navigation (AREA)

Abstract

Ein Verfahren zum Erzeugen von Proxy-Akustikmodellen für die Verwendung bei der automatischen Spracherkennung umfasst, dass ausgehend von Sprachmaterial, das über Mikrophon von männlichen Sprechern einer ersten Sprache gewonnen worden ist, Akustikmodelle trainiert werden und dass die Akustikmodelle n weiblichen Sprechern einer zweiten Sprache angepasst werden, um Proxy-Akustikmodelle zur Verwendung während der Laufzeit der Spracherkennung einer Äußerung eines weiblichen Sprechers der ersten Sprache zu erzeugen.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft allgemein die automatische Spracherkennung.
  • HINTERGRUND DER ERFINDUNG
  • Automatische Spracherkennungstechnologien (ASE-Technologien) versetzen mit Mikrophon ausgerüstete Datenverarbeitungsgeräte in die Lage, Sprache zu interpretieren, und bieten somit eine Alternative zu herkömmlichen Mensch-Computer-Eingabeeinrichtungen wie beispielsweise Tastaturen oder Tastenfeldern. ASE-Systeme verwenden Akustikmodelle zum Erkennen von Sprache. Ein Akustikmodell ist eine statistische Repräsentation eines oder mehrerer Laute, die eine Sprachäußerung, wie beispielsweise ein Wort, oder ein Phonem oder sonstiges Subwort darstellen. Ein Akustikmodell für eine Äußerung wird durch einen Trainingsprozess erzeugt, der umfasst, dass Tonaufzeichnungen mehrerer Beispiele der Äußerung seitens mehrerer Personen in mehreren Kontexten angefertigt werden und die Äußerungsbeispiele zu einer oder zu mehreren statistischen Repräsentationen der Äußerung zusammengesetzt werden. Beispielsweise können etwa Akustikmodelle für die Ziffern 0–9 durch 50 Männer und 50 Frauen trainiert werden, die jeweils jede Ziffer zehn Mal unter einer oder mehreren Bedingungen aussprechen. Demzufolge stehen anschließend für jede Ziffer 500 weibliche Äußerungsbeispiele und 500 männliche Äußerungsbeispiele zur Verfügung. Sämtliche Äußerungsbeispiele für jede Ziffer können zu einer oder mehreren geschlechtsneutralen statistischen Repräsentationen einer jeden Ziffer zusammengesetzt werden, oder es können die weiblichen Äußerungsbeispiele für jede Ziffer zu einer oder mehreren weiblichen statistischen Repräsentationen einer jeden Ziffer zusammengesetzt werden und es können die männlichen Äußerungsbeispiele für jede Ziffer zu einer oder mehreren männlichen statistischen Repräsentationen einer jeden Ziffer zusammengesetzt werden.
  • Ein Problem, das im Zusammenhang mit der ASE auftritt, besteht jedoch darin, dass unter Umständen für die weiblichen Sprecher bestimmter Bevölkerungsgruppen nur wenig bis überhaupt keine Trainingsdaten verfügbar sind. In bestimmten Bevölkerungsgruppen kann es beispielsweise schwierig oder sogar unmöglich sein, Trainingsdaten für weibliche Akustikmodelle zu erhalten. Als weiteres Beispiel nehmen in gewissen Bevölkerungsgruppen viele weibliche Personen derzeit nicht als Autofahrer am Verkehrsgeschehen teil, so dass es an statistisch signifikanten weiblichen Sprechdaten in Fahrzeuginnenräumen mangelt. Der Mangel an solchen Daten macht es schwierig, die Leistungsfähigkeit der Spracherkennung für bestimmte weibliche Benutzer zu verbessern.
  • KURZFASSUNG DER ERFINDUNG
  • Gemäß einer Ausführungsform der Erfindung wird ein Verfahren zum Erzeugen von Proxy-Akustikmodellen für die Verwendung bei der automatischen Spracherkennung bereitgestellt. Das Verfahren umfasst die Schritte, dass (a) ausgehend von Sprachmaterial, das über Mikrophon von männlichen Sprechern einer ersten Sprache gewonnen worden ist, Akustikmodelle trainiert werden, und (b) die in Schritt (a) trainierten Akustikmodelle in Reaktion auf sprachenunabhängige Sprechdaten von weiblichen Sprechern einer zweiten Sprache angepasst werden, um Proxy-Akustikmodelle zur Verwendung während der Laufzeit der Spracherkennung einer Äußerung eines weiblichen Sprechers der ersten Sprache zu erzeugen.
  • Gemäß einer anderen Ausführungsform der Erfindung wird ein Verfahren zur automatischen Spracherkennung bereitgestellt, welches die Schritte umfasst, dass: (a) eine Äußerung über ein Mikrophon von einem weiblichen Sprecher einer ersten Sprache empfangen wird; (b) die Äußerung mit einem Präprozessor zur automatischen Spracherkennung vorverarbeitet wird, um Akustikmerkmalsvektoren zu erzeugen; (c) zumindest eine Formantenfrequenz der empfangenen Äußerung bestimmt wird; (d) zumindest eines aus einer Mehrzahl von Formantenfrequenzbändern in Sprechdaten von weiblichen Sprechern einer zweiten Sprache identifiziert wird, das der zumindest einen in Schritt (c) bestimmten Formantenfrequenz entspricht; und (e) Akustikmodelle, die ausgehend von Sprachmaterial von männlichen Sprechern der ersten Sprache trainiert worden sind, in Reaktion auf den Identifikationsschritt (d) angepasst werden, um als Ergebnis Proxy-Akustikmodelle für die weiblichen Sprecher der ersten Sprache zu liefern.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Eine oder mehrere bevorzugte, beispielhafte Ausführungsformen der Erfindung werden im Folgenden in Verbindung mit den beigefügten Zeichnungen beschrieben, in denen gleiche Bezeichnungen jeweils gleiche Elemente bezeichnen, und wobei:
  • 1 ein Blockdiagramm ist, in welchem eine beispielhafte Ausführungsform eines Kommunikationssystems abgebildet ist, mit dem das hier offenbarte Verfahren verwendet werden kann;
  • 2 ein Blockdiagramm ist, in welchem eine beispielhafte Ausführungsform eines automatischen Spracherkennungssystems (ASE-Systems) veranschaulicht ist, das mit dem System aus 1 zum Einsatz kommen kann und zur Implementierung beispielhafter Verfahren der Spracherkennung verwendet wird;
  • 3 ein Ablaufdiagramm ist, in welchem eine beispielhafte Ausführungsform eines Verfahrens zum Erzeugen von Akustikmodellen für die Verwendung bei der durch das ASE-System aus 2 ausführbaren, automatischen Spracherkennung veranschaulicht ist; und
  • 4 ein Ablaufdiagramm ist, in welchem eine beispielhafte Ausführungsform eines Verfahrens zur automatischen Spracherkennung veranschaulicht ist, das durch das ASE-System aus 2 ausgeführt werden kann.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN)
  • Die nachfolgende Beschreibung beschreibt ein beispielhaftes Kommunikationssystem, ein beispielhaftes ASE-System, das mit dem Kommunikationssystem verwendet werden kann, sowie ein oder mehrere beispielhafte Verfahren, die mit einem oder mit beiden der vorerwähnten Systeme verwendet werden können. Die weiter unten beschriebenen Verfahren können von einer Fahrzeugtelematikeinheit (FTE) als Teil der Erkennung von Sprachäußerungen eines Benutzers der FTE verwendet werden. Die weiter unten beschriebenen Verfahren sind zwar so dargestellt, wie sie in einer FTE implementiert werden könnten, es ist jedoch festzustellen, dass sie in jeder beliebigen Art von Fahrzeug-Spracherkennungssystem, sowie auch in anderen Arten von Spracherkennungssystemen zweckmäßig sein könnten. Beispielsweise könnten die Verfahren etwa in ASE-fähigen mobilen Computereinrichtungen oder -systemen, in PCs oder dergleichen implementiert sein.
  • Kommunikationssystem
  • In 1, auf welche nun Bezug genommen wird, ist eine beispielhafte Betriebsumgebung gezeigt, welche ein mobiles Fahrzeugkommunikationssystem 10 umfasst und zur Implementierung des hier offenbarten Verfahrens verwendet werden kann. Das Kommunikationssystem 10 umfasst allgemein ein Fahrzeug 12, ein oder mehrere Mobilfunknetzsysteme 14, ein terrestrisches Kommunikationsnetz 16, einen Computer 18 und ein Callcenter 20. Es versteht sich, dass das offenbarte Verfahren mit jeder beliebigen Anzahl von verschiedenen Systemen verwendet werden kann und nicht spezifisch auf die hier gezeigte Betriebsumgebung beschränkt ist. Außerdem sind die Architektur, der Aufbau, die Konfiguration und der Betrieb des Systems 10 und seiner einzelnen Bauteile gemäß dem Stand der Technik bekannt. Somit bieten die folgenden Absätze lediglich einen kurzen Überblick über ein solches beispielhaftes System 10; andere, hier nicht gezeigte Systeme könnten jedoch ebenso das offenbarte Verfahren verwenden.
  • Das Fahrzeug 12 ist in der veranschaulichten Ausführungsform als ein Personenkraftwagen abgebildet, es ist jedoch festzustellen, dass jedes beliebige andere Fahrzeug, einschließlich Motorräder, Lastkraftwagen, Geländewagen (SWs), Wohnmobile (RVs), Wasserfahrzeuge, Luftfahrzeuge, usw. ebenso verwendet werden können. Ein Teil der Fahrzeugelektronik 28 ist allgemein in 1 gezeigt und umfasst eine Telematikeinheit 30, ein Mikrophon 32, eine oder mehrere Tasten oder andere Steuereingänge 34, ein Audiosystem 36, ein Anzeigedisplay 38 und ein GPS-Modul 40 sowie eine Anzahl von Fahrzeugsystemmodulen (FSMs) 42. Manche dieser Einrichtungen können direkt mit der Telematikeinheit verbunden sein, wie beispielsweise das Mikrophon 32 und die Drucktaste(n) 34, während andere indirekt unter Verwendung einer oder mehrerer Netzverbindungen, wie beispielsweise eines Kommunikationsbusses 44 oder eines Unterhaltungsbusses 46, verbunden sind. Als Beispiele für geeignete Netzwerkverbindungen sind unter anderem zu nennen: ein Controller Area Network (CAN), ein Media Oriented System Transport (MOST), ein Local Interconnect Network (LIN), ein Local Area Network (LAN), sowie andere geeignete Verbindungen, wie beispielsweise Ethernet oder andere, welche den bekannten ISO-, SAE- und IEEE-Normen und Spezifikationen entsprechen, um hier nur einige zu nennen.
  • Bei der Telematikeinheit 30 kann es sich um eine vom Erstausrüster installierte (eingebettete) OEM-Einrichtung oder um eine nachträglich eingebaute Einrichtung handeln, die eine drahtlose Sprach- und/oder Datenkommunikation über das Mobilfunknetzsystem 14 und über Funknetzwerkverbindungen ermöglicht, so dass das Fahrzeug mit dem Callcenter 20 oder einer anderen Einheit oder Einrichtung kommunizieren kann. Die Telematikeinheit verwendet zur Herstellung eines Kommunikationskanals (eines Sprachkanals und/oder Datenkanals) mit dem Mobilfunknetzsystem 14 vorzugsweise Funkübertragungen, so dass Sprach- und/oder Datenübertragungen über den Kanal gesendet oder empfangen werden können. Indem sie gleichermaßen Sprach- und Datenkommunikation bereitstellt, ermöglicht es die Telematikeinheit 30, dass in dem Fahrzeug eine Reihe verschiedener Dienste, einschließlich jener im Bereich der Navigation, der Telefonie, der Notfallunterstützung, der Diagnose, der informierenden Unterhaltung (Infotainment), usw. angeboten werden können. Daten können entweder über eine Datenverbindung, beispielsweise als Paketdatenübertragung über einen Datenkanal, oder über einen Sprachkanal unter Verwendung von in der Technik bekannten Verfahren gesendet werden. Für kombinierte Dienste, bei denen gleichermaßen Sprachkommunikation (z. B. mit einem menschlichen Berater oder einer VoiceResponse-Einheit in einem Callcenter 20) und Datenkommunikation (z. B. zur Bereitstellung von GPS-Positionsdaten oder Fahrzeugdiagnosedaten an das Callcenter 20) benötigt wird, kann das System einen einzelnen Anruf über einen Sprachkanal verwenden und je nach Bedarf zwischen Sprach- und Datenübertragung über den Sprachkanal wechseln, und dies kann unter Verwendung von Verfahren erfolgen, die dem Fachmann bekannt sind.
  • Gemäß einer Ausführungsform verwendet die Telematikeinheit 30 zellulare Kommunikation gemäß entweder GSM- oder CDMA-Standards und umfasst daher einen zellularen Standard-Chipsatz 50 für Sprachkommunikationsverbindungen wie Telefonieren mit Freisprechanlage, ein Funk-Modem für die Datenübertragung, eine elektronische Verarbeitungseinrichtung 52, eine oder mehrere digitale Speichereinrichtungen 54 und eine Dualantenne 56. Es ist festzustellen, dass das Modem entweder als in der Telematikeinheit gespeicherte Software implementiert ist und von dem Prozessor 52 ausgeführt wird, oder als separate Hardwarekomponente vorhanden sein kann, welche innerhalb oder außerhalb der Telematikeinheit 30 angeordnet ist. Das Modem kann unter Verwendung jeder beliebigen Anzahl von unterschiedlichen Standards oder Protokollen, wie beispielsweise EVDO, CDMA, GPRS und EDGE betrieben werden. Funknetzwerkverbindungen zwischen dem Fahrzeug und anderen vernetzten Einrichtungen können ebenfalls unter Verwendung der Telematikeinheit 30 realisiert werden. Zu diesem Zweck kann die Telematikeinheit 30 so ausgelegt sein, dass sie drahtlos gemäß einem oder mehreren Funkprotokollen, wie beispielsweise einem beliebigen der IEEE 802.11-Protokolle, WiMAX oder Bluetooth kommuniziert. Bei einer Verwendung für paketvermittelte Datenkommunikation, wie beispielsweise TCP/IP, kann die Telematikeinheit mit einer statischen IP-Adresse ausgelegt sein oder so eingerichtet sein, dass sie eine von einer anderen Einrichtung im Netzwerk, wie beispielsweise einem Router oder einem Netzwerkadressserver, eine automatisch zugewiesene IP-Adresse erhält.
  • Bei dem Prozessor 52 kann es sich um jede beliebige Art von Einrichtung handeln, die in der Lage ist, elektronische Anweisungen zu verarbeiten, also beispielsweise um Mikroprozessoren, Mikrocontroller, Hostprozessoren, Controller, Fahrzeugkommunikationsprozessoren und anwendungsspezifische Schaltkreise (ASICs). Es kann dies ein fest zugeordneter Prozessor sein, der ausschließlich für die Telematikeinheit 30 verwendet wird, oder er kann auch von anderen Fahrzeugsystemen gemeinsam genutzt werden. Der Prozessor 52 führt verschiedene Arten von digital gespeicherten Anweisungen aus, beispielsweise in dem Speicher 54 abgespeicherte Software- oder Firmwareprogramme, welche die Telematikeinheit in die Lage versetzen, ein breites Spektrum von Diensten bereitzustellen. Zum Beispiel kann der Prozessor 52 Programme oder Prozessdaten ausführen, um zumindest einen Teil des hier besprochenen Verfahrens durchzuführen.
  • Die Telematikeinheit 30 kann dazu verwendet werden, unterschiedlichste Fahrzeug-Dienste bereitzustellen, die eine Funkkommunikation zu und/oder von dem Fahrzeug erforderlich machen. Solche Dienste umfassen: Abbiegehinweise und andere navigationsbezogene Dienste, die in Verbindung mit dem GPS-basierten Fahrzeugnavigationsmodul 40 bereitgestellt werden; Airbag-Auslösungsbenachrichtigung und andere notfallunterstützungs- oder pannenhilfebezogene Dienste, die in Verbindung mit einem oder mehreren Kollisionssensorschnittstellenmodulen wie beispielsweise einem Karosserie-Steuermodul (nicht gezeigt) bereitgestellt werden; Diagnoseberichtswesen mit einem oder mehreren Diagnosemodulen; sowie infotainmentbezogene Dienste, wobei Musik, Webseiten, Filme, Fernsehprogramme, Videospiele und/oder andere Daten durch ein Infotainment-Modul (nicht gezeigt) heruntergeladen und im Hinblick auf eine direkte oder spätere Wiedergabe abgespeichert werden. Bei den weiter oben aufgelisteten Diensten handelt es sich keinesfalls um eine erschöpfende Liste aller Fähigkeiten der Telematikeinheit 30 sondern lediglich um eine Aufzählung einiger der Dienste, welche die Telematikeinheit anzubieten in der Lage ist. Weiterhin versteht es sich, dass zumindest manche der weiter oben erwähnten Module in Form von Softwarebefehlen implementiert sein könnten, die innerhalb oder außerhalb der Telematikeinheit 30 abgespeichert sind, oder als Hardwarekomponenten vorhanden sein könnten, die innerhalb oder außerhalb der Telematikeinheit 30 untergebracht sein können, oder sie könnten miteinander oder mit anderen Systemen, die über das gesamte Fahrzeug hinweg verteilt sein können, integriert oder gemeinsam genutzt sein, um nur einige Möglichkeiten zu nennen. Falls die Module als außerhalb der Telematikeinheit 30 untergebrachte Fahrzeugsystemmodule (FSMs) 42 implementiert sind, könnten sie den Fahrzeugbus 44 verwenden, um Daten und Anweisungen mit der Telematikeinheit auszutauschen.
  • Das GPS-Modul 40 empfängt Funksignale von einer Konstellation 60 aus GPS-Satelliten. Aus diesen Signalen kann das Modul 40 die Fahrzeugposition bestimmen, welche zur Bereitstellung von navigations- und sonstigen positionsbezogenen Diensten an den Fahrzeuglenker verwendet wird. Navigationsbezogene Daten können auf dem Display 38 (oder einem anderen in dem Fahrzeug vorhandenen Display) angezeigt werden oder können verbal erfolgen, wie dies etwa im Fall der Bereitstellung einer auch als Turn-by-Turn-Navigation bezeichneten, sprachgesteuerten Routenführung geschieht. Diese Navigationsdienste können unter Verwendung eines fest zugeordneten, fahrzeugeigenen Navigationsmoduls (welches Teil des GPS-Moduls 40 sein kann) bereitgestellt werden, oder es können manche oder alle navigationsbezogenen Dienste über die Telematikeinheit 30 erfolgen, wobei die Positionsdaten zum Zweck der Versorgung des Fahrzeugs mit Navigationskarten, Kartenanmerkungen (als 'Points of Interest' bezeichnete Sonderziele, Restaurants, usw.), Routenberechnungen und dergleichen an eine entfernte Stelle gesendet werden. Die Positionsdaten können auch für andere Zwecke, wie etwa die Fuhrparkverwaltung, an das Callcenter 20 oder an ein entferntes Computersystem, wie beispielsweise den Computer 18, bereitgestellt werden. Außerdem können neue oder aktualisierte Kartendaten für das GPS-Modul 40 über die Telematikeinheit 30 von dem Callcenter 20 heruntergeladen werden.
  • Abgesehen von dem Audiosystem 36 und dem GPS-Modul 40 kann das Fahrzeug 12 weitere Fahrzeugsystemmodule (FSMs) 42 in Form von elektronischen Hardwarekomponenten umfassen, die über das gesamte Fahrzeug hinweg angeordnet sind und in der Regel Eingangsdaten von einem oder mehreren Sensoren empfangen und die empfangenen Eingangsdaten dazu verwenden, um Diagnose-, Überwachungs-, Steuer-, Berichts- und/oder sonstige Funktionen auszuführen. Ein jedes der FSMs 42 ist vorzugsweise über den Kommunikationsbus 44 mit den anderen FSMs sowie mit der Telematikeinheit 30 verbunden und kann so programmiert sein, dass es Diagnosetests von Fahrzeugsystemen und -subsystemen durchführt. Beispielsweise kann ein FSM 42 ein Motorsteuermodul (ECM) darstellen, das verschiedene Aspekte des Motorbetriebs, wie etwa die Kraftstoffzündung und den Zündzeitpunkt steuert, ein anderes FSM 42 kann ein Antriebsstrang-Steuermodul darstellen, das den Betrieb einer oder mehrerer Komponenten des Fahrzeugantriebsstrangs steuert, und ein weiteres FSM 42 kann ein Karosserie-Steuermodul darstellen, das verschiedene über das gesamte Fahrzeug hinweg verteilte elektrische Komponenten, wie etwa die Zentralverriegelung und die Scheinwerfer des Fahrzeugs, regelt. Gemäß einer Ausführungsform ist das Motorsteuermodul mit On-Board-Diagnosemerkmalen (OBD-Merkmalen) ausgestattet, die eine große Anzahl von Echtzeitdaten bereitstellen, wie beispielsweise jene, die von verschiedenen Sensoren einschließlich der Fahrzeugabgassensoren, empfangen werden und eine standardisierte Reihe von Störfall-Diagnosecodes (Diagnostic Trouble Codes, DTCs) bereitstellen, welche es einem Techniker erlauben, Funktionsstörungen innerhalb des Fahrzeugs rasch aufzufinden und zu beheben. Wie für den Fachmann festzustellen ist, handelt es sich bei den oben erwähnten FSMs nur um Beispiele einiger Module, die in dem Fahrzeug 12 verwendet werden können, wobei zahlreiche weitere Module ebenso möglich sind.
  • Die Fahrzeugelektronik 28 umfasst außerdem eine Anzahl von Fahrzeugbenutzerschnittstellen, durch die dem Fahrzeugbenutzer Mittel zum Bereitstellen und/oder Empfangen von Informationen, einschließlich des Mikrophons 32, der Drucktasten) 34, des Audiosystems 36 und des Anzeigedisplays 38, zur Verfügung gestellt werden. Der hier verwendete Begriff 'Fahrzeugbenutzerschnittstelle' umfasst ganz allgemein jede geeignete Form von elektronischer Einrichtung, einschließlich Hardwarekomponenten und Softwarekomponenten, die sich an Bord des Fahrzeugs befindet und es einem Fahrzeugbenutzer ermöglicht, mit oder über eine Komponente des Fahrzeugs zu kommunizieren. Das Mikrophon 32 stellt einen Audioeingang zu der Telematikeinheit bereit, um das Eingeben von Sprachbefehlen sowie das Freisprechen über das Mobilfunknetzsystem 14 durch den Fahrer oder den Beifahrer zu ermöglichen. Zu diesem Zweck kann es mit einer eingebauten, automatisierten Sprachverarbeitungseinheit verbunden sein, welche eine in der Technik bekannte Mensch/Maschine-Schnittstellentechnologie ('Human-Machine Interface'- oder HMI-Technologie) verwendet. Durch die Drucktaste(n) 34 wird eine manuelle Benutzereingabe an die Telematikeinheit 30 ermöglicht, um Funktelefonanrufe einzuleiten und andere Daten-, Rückmelde- oder Steuereingaben vorzunehmen. Es können separate Drucktasten verwendet werden, um Notfallanrufe gegenüber regulären Kundendienstanrufen an das Callcenter 20 abzuheben. Das Audiosystem 36 stellt einen Audioausgang für einen Fahrzeuginsassen bereit und es kann sich dabei um ein fest zugeordnetes, unabhängiges System oder um einen Teil des primären Fahrzeugaudiosystems handeln. Gemäß der hier gezeigten, besonderen Ausführungsform ist das Audiosystem 36 funktional gleichermaßen mit dem Fahrzeugbus 44 und dem Unterhaltungsbus 46 gekoppelt und somit in der Lage, MW-, UKW- und Satellitenradio, sowie CD-, DVD- und andere Multimedia-Funktionalität bereitzustellen. Diese Funktionalität kann in Verbindung mit dem weiter oben beschriebenen Infotainment-Modul oder unabhängig von diesem bereitgestellt werden. Das Anzeigedisplay 38 ist vorzugsweise als ein Grafikdisplay, wie etwa ein Touchscreen auf der Instrumententafel, oder als eine von der Windschutzscheibe reflektierte, auch als Heads-up Display bezeichnete Überkopfanzeige ausgebildet und kann dazu benutzt werden, eine Vielzahl von Eingabe- und Ausgabefunktionen bereitzustellen. Verschiedene andere Fahrzeugbenutzerschnittstellen können ebenfalls zum Einsatz kommen, da die Schnittstellen aus 1 nur ein Beispiel für eine besondere Realisierung darstellen.
  • Bei dem Mobilfunknetzsystem 14 handelt es sich vorzugsweise um ein Zellulartelefonsystem, das eine Mehrzahl von Mobilfunkmasten 70 (nur einer gezeigt), ein oder mehrere Mobilvermittlungsstellen (Mobile Switching Centers, MSCs) 72 sowie jedwede anderen Netzwerkkomponenten umfasst, die erforderlich sind, um das Mobilfunknetzsystem 14 mit dem terrestrischen Netz 16 zu verbinden. Jeder Mobilfunkmast 70 umfasst Sende- und Empfangsantennen und eine Basisstation, wobei die Basisstationen von verschiedenen Mobilfunkmasten jeweils entweder direkt oder über eine zwischengeschaltete Ausrüstung, wie beispielsweise einen Basisstationscontroller, mit der Mobilvermittlungsstelle (MSC) 72 verbunden sind. In dem Zellularsystem 14 kann jede beliebige geeignete Kommunikationstechnologie implementiert sein, beispielsweise analoge Technologien, wie etwa AMPS, oder die neueren digitalen Technologien, wie beispielsweise CDMA (z. B. CDMA2000) oder GMS/GPRS. Wie für den Fachmann festzustellen ist, sind verschiedene Anordnungen bestehend aus Mobilfunkmast, Basisstation und Mobilvermittlungsstelle (MSC) möglich, die jeweils mit dem Funknetzsystem 14 verbunden werden könnten. Beispielsweise könnten sich die Basisstation und der Mobilfunkmast gemeinsam am selben Standort befinden, oder sie könnten voneinander entfernt gelegen sein, jede Basisstation könnte für einen einzelnen Mobilfunkmast verantwortlich sein, oder ein und dieselbe Basisstation könnte verschiedene Mobilfunkmasten bedienen, und verschiedene Basisstationen könnten mit ein und derselben Mobilvermittlungsstelle (MSC) gekoppelt sein, um nur ein paar der möglichen Anordnungen zu nennen.
  • Neben der Verwendung des Mobilfunknetzsystems 14 kann ein anderes Mobilfunknetzsystem in Form einer satellitengestützten Kommunikation verwendet werden, um eine unidirektionale oder bidirektionale Kommunikation mit dem Fahrzeug bereitzustellen. Dies kann unter Verwendung eines oder mehrerer Kommunikationssatelliten 62 und einer Uplink-Sendestation 64 erfolgen. Bei unidirektionaler Kommunikation kann es sich beispielsweise um Satellitenradiodienste handeln, wobei der Programminhalt (Nachrichten, Musik, usw.) von der Sendestation 64 empfangen, paketweise für den Upload aufbereitet und anschließend an den Satelliten 62 gesendet wird, der das Programm an die Abonnenten übermittelt. Bei bidirektionaler Kommunikation kann es sich beispielsweise um Satellitentelefoniedienste handeln, die den Satelliten 62 dazu verwenden, um telefonische Mitteilungen zwischen dem Fahrzeug 12 und der Station 64 zu übertragen. Diese Satellitentelefonie kann, sofern sie benutzt wird, entweder zusätzlich zu dem Mobilfunknetzsystem 14 oder anstelle von diesem verwendet werden.
  • Bei dem terrestrischen Netz 16 kann es sich entweder um ein herkömmliches landgestütztes Telekommunikationsnetz handeln, das mit einem oder mehreren Festnetztelefonen verbunden ist und das Mobilfunknetzsystem 14 mit dem Callcenter 20 verbindet. Beispielsweise kann das terrestrische Netz 16 ein öffentliches Fernsprechvermittlungsnetz (public switched telephone network, PSTN) umfassen, wie etwa jenes, das zur Bereitstellung der Festnetztelefonie, der paketvermittelten Datenkommunikation und der Internet-Infrastruktur verwendet wird. Eines oder mehrere Segmente des terrestrischen Netzes 16 könnten durch die Verwendung eines standardmäßigen drahtgebundenen Netzes, eines Fasernetzes oder eines anderen optischen Netzes, eines Kabelnetzes, eines Stromleitungsnetzes, anderer drahtloser Netze wie beispielsweise drahtloser lokaler Netze (Wireless Local Area Networks, WLANs) oder von Netzen, die einen drahtlosen Breitbandzugang (Broadband Wireless Access, BWA) ermöglichen, oder jeder beliebigen Kombination aus diesen, implementiert sein. Überdies braucht das Callcenter 20 nicht über ein terrestrisches Netz 16 verbunden sein, sondern es könnte auch eine drahtlose Telefonieausrüstung umfassen, so dass es unmittelbar mit einem Funknetz wie beispielsweise dem Mobilfunknetzsystem 14 kommunizieren kann.
  • Bei dem Computer 18 kann es sich um einen aus einer Anzahl von Computern handeln, die über ein privates oder öffentliches Netz, wie beispielsweise das Internet, zugänglich ist. Ein Computer 18 kann für einen oder mehrere Zwecke eingesetzt werden, beispielsweise als Webserver, der von dem Fahrzeug aus über die Telematikeinheit 30 und das Funknetz 14 zugänglich ist. Bei anderen dergestalt zugänglichen Computer 18 kann es sich beispielsweise um die folgenden handeln: einen Servicecenter-Computer, zu welchem Diagnosedaten und andere Fahrzeugdaten von dem Fahrzeug über die Telematikeinheit 30 hochgeladen werden können; einen Clientcomputer, der von dem Fahrzeugbesitzer oder einem anderen Abonnenten zu Zwecken wie etwa dem Zugriff auf Fahrzeugdaten oder dem Empfangen von solchen oder zum Einrichten oder Konfigurieren von bevorzugten Abonnenteneinstellungen oder zum Steuern von Fahrzeugfunktionen verwendet wird; oder ein Repository eines Drittanbieters, von welchem oder an welches durch Kommunikationsaufbau mit dem Fahrzeug 12 oder dem Callcenter 20, oder mit beiden, Fahrzeugdaten oder andere Informationen bereitgestellt werden. Ein Computer 18 kann auch dazu benutzt werden, eine Internetanbindung bereitzustellen, beispielsweise in Form von DNS-Diensten oder eines Netzwerkadressservers, der DHCP oder ein anderes geeignetes Protokoll verwendet, um dem Fahrzeug 12 eine IP-Adresse zuzuweisen.
  • Das Callcenter 20 ist so konzipiert, dass es der Fahrzeugelektronik 28 eine Reihe unterschiedlicher, systemspezifischer Backend-Funktionen bereitstellt, und umfasst allgemein, gemäß der hier gezeigten beispielhaften Ausführungsform, einen oder mehrere Schalter 80, Server 82, Datenbanken 84, menschliche Berater 86, sowie auch ein automatisiertes Voice-Response-System 88, welche alle in der Technik bekannt sind. Diese verschiedenen Callcenter-Komponenten sind vorzugsweise über ein drahtgebundenes oder drahtloses lokales Netz 90 miteinander gekoppelt. Der Schalter 80, bei dem es sich um einen Nebenanschlussschalter (Private Branch Exchange- oder PBX-Schalter) handeln kann, leitet die eingehenden Signale so, dass Sprachübertragungen entweder über ein gewöhnliches Telefon an den menschlichen Ansprechpartner 86 oder mittels VoIP an das automatisierte VoiceResponse-System 88 gesendet werden. Das Telefon des menschlichen Beraters kann ebenfalls VoIP verwenden, wie dies durch die gestrichelte Linie in 1 angedeutet ist. VoIP oder jede andere Datenübertragung durch den Schalter 80 ist über ein zwischen dem Schalter 80 und dem Netz 90 geschaltetes Modem (nicht gezeigt) implementiert. Die Datenübertragungen werden über das Modem zu dem Server 82 und/oder der Datenbank 84 geleitet. In der Datenbank 84 können Kontoinformationen wie beispielsweise Abonnentenauthentifizierungsdaten, Fahrzeugkennungen, Profildatensätze, Verhaltensmuster und andere relevante Abonnentendaten abgespeichert sein. Datenübertragungen können auch durch Funknetzsysteme, wie beispielsweise 802.11x, GPRS und dergleichen durchgeführt werden. Die veranschaulichte Ausführungsform wurde zwar so beschrieben, als würde sie in Verbindung mit einem personalbesetzten Callcenter 20 und unter Mitwirkung eines menschlichen Beraters 86 verwendet, es ist jedoch festzustellen, dass in dem Callcenter statt dessen auch das VRS 88 als ein automatisierter Berater verwendet werden kann oder dass eine Kombination aus VRS 88 und dem menschlichen Berater 86 zum Einsatz kommen kann.
  • System zur automatischen Spracherkennung
  • In 2, auf welche nun Bezug genommen wird, ist eine beispielhafte Architektur für ein ASE-System 210 gezeigt, das zur Umsetzung des hier offenbarten Verfahrens verwendet werden kann. Ein Fahrzeuginsasse tritt im Allgemeinen zu einem oder mehreren der folgenden grundlegenden Zwecke mit einem System zur automatischen Spracherkennung (ASE-System) über die Sprache in Interaktion: zum Trainieren des Systems, damit es die Besonderheiten der Stimme eines Fahrzeuginsassen erkennt; zum Speichern von diskretem Sprachmaterial, beispielsweise eines gesprochenen Namensetiketts oder eines gesprochenen Steuerworts, wie etwa einer Zahl oder eines Schlüsselworts; oder zum Erkennen der Sprache des Fahrzeuginsassen im Hinblick auf jeden beliebigen geeigneten Zweck, wie beispielsweise sprachgesteuertes Wählen, Menünavigation, Transkription, Service-Anforderungen, Fahrzeugeinrichtungssteuerung oder Einrichtungsfunktionssteuerung oder dergleichen. Im Allgemeinen extrahiert die ASE Akustikdaten aus der menschlichen Sprache, vergleicht die Akustikdaten mit gespeicherten Subwortdaten und stellt sie diesen gegenüber, wählt ein geeignetes Subwort aus, das mit anderen ausgewählten Subwörtern verknüpft werden kann, und gibt die verknüpften Subwörter oder Wörter zur Nachverarbeitung, wie beispielsweise zum Diktat oder zur Transkription, zum adressbuchgesteuerten Wählen, zum Abspeichern im Speicher, zum Trainieren von ASE-Modellen oder Abstimmungsparametern oder dergleichen, aus.
  • ASE-Systeme sind dem Fachmann im Allgemeinen bekannt und in 2 ist nur ein spezifisches, beispielhaftes ASE-System 210 veranschaulicht. Das System 210 umfasst eine Einrichtung zum Empfangen von Sprache, wie beispielsweise das Telematikmikrophon 32, und eine Akustikschnittstelle 33, wie beispielsweise eine Soundkarte der Telematikeinheit 30 mit einem Analog-Digital-Wandler, um den Sprachfluss in Akustikdaten zu digitalisieren. Das System 210 umfasst außerdem einen Speicher, wie beispielsweise den Telematikspeicher 54, zum Speichern der Akustikdaten und zum Speichern von Software und Datenbanken zur Spracherkennung, sowie einen Prozessor, wie beispielsweise den Telematikprozessor 52, zum Verarbeiten der Akustikdaten. Der Prozessor funktioniert zusammen mit dem Speicher und in Verbindung mit den folgenden Modulen: einem oder mehreren Frontend-Prozessoren, Präprozessoren oder Präprozessor-Softwaremodulen 212 zum Parsen von Strömen der Akustikdaten der Sprache in parametrische Repräsentationen wie beispielsweise Akustikmerkmale; einem oder mehreren Decodierern oder Decodierersoftwaremodulen 214 zum Decodieren der Akustikmerkmale, um daraus digitale Subwort- oder Wort-Ausgabedaten zu liefern, die den eingegebenen Sprachäußerungen entsprechen; und einen oder mehrere Backend-Prozessoren, Postprozessoren oder Postprozessor-Softwaremodule 216 zum Verwenden der von dem Decodierermodul/den Decodierermodulen 214 (nachfolgend numerusneutral 'Decodierermodul' genannt) gelieferten Ausgabedaten für einen beliebigen geeigneten Zweck.
  • Das System 210 kann außerdem Sprachmaterial von (einer) beliebigen geeigneten Audioquelle(n) 31 empfangen, die direkt mit dem Präprozessor-Softwaremodul/den Präprozessor-Softwaremodulen 212 (nachfolgend numerusneutral 'Präprozessor-Softwaremodul' genannt) in Verbindung gesetzt werden kann/können, wie in durchgehender Linie gezeigt, oder mit diesem/diesen indirekt über die Akustikschnittstelle 33 in Verbindung gesetzt werden kann/können. Bei der/den Audioquelle(n) 31 kann es sich zum Beispiel um eine Telefon-Audioquelle, wie etwa ein VoiceMail-System, oder um andere Telefondienste von beliebiger Art handeln.
  • Es können ein oder mehrere Module oder Modelle als Eingang in das Decodierermodul 214 verwendet werden. Erstens kann ein Grammatik- und/oder Lexikonmodell bzw. können Grammatik- und/oder Lexikonmodelle 218 Regeln bereitstellen, die festlegen, welche Wörter logikgemäß auf andere Wörter folgen können, um gültige Sätze zu bilden. Im weitgefassten Sinn kann ein Lexikon oder eine Grammatik eine Gesamtheit an Vokabular definieren, das zu einem beliebigen gegebenen Zeitpunkt in einem beliebigen gegebenen ASE-Modus von dem System 210 erwartet wird. Wenn sich das System 210 beispielsweise in einem Trainingsmodus zum Trainieren von Befehlen befindet, kann das Lexikon- oder Grammatikmodell bzw. können die Lexikon- oder Grammatikmodelle 218 alle Befehle umfassen, die dem System 210 bekannt sind und von diesem verwendet werden. Bei einem anderen Beispiel kann das aktive Lexikon- oder Grammatikmodell bzw. können die aktiven Lexikon- oder Grammatikmodelle 218, wenn sich das System 210 in einem Hauptmenümodus befindet, alle Hauptmenübefehle umfassen, die von dem System 210 erwartet werden, wie beispielsweise Anrufen, Wählen, Verlassen, Löschen, Verzeichnis oder dergleichen. Zweitens wirkt ein Akustikmodell bzw. wirken Akustikmodelle 220 unterstützend bei der Auswahl der wahrscheinlichsten Subwörter oder Wörter, die einer von dem Präprozessormodul 212 kommenden Eingabe entsprechen. Drittens werden durch ein Wortmodell bzw. durch Wortmodelle 222 und durch ein Satz-/Sprachmodell bzw. durch Satz-/Sprachmodelle 224 Regeln, eine Syntax und/oder eine Semantik für das angemessene Platzieren der ausgewählten Subwörter oder Wörter in dem jeweils entsprechenden Wort- oder Satzkontext bereitgestellt. Außerdem kann durch das Satz-/Sprachmodell bzw. durch die Satz-/Sprachmodelle 224 eine Gesamtheit von Sätzen definiert werden, die das System 210 zu einem beliebigen gegebenen Zeitpunkt in einem beliebigen gegebenen ASE-Modus erwartet, und/oder können durch diese(s) Regeln etc. bereitgestellt werden, die bestimmen, welche Sätze logikgemäß auf andere Sätze folgen können, um einen gültigen erweiterten Sprachfluss zu bilden.
  • Gemäß einer alternativen beispielhaften Ausführungsform kann ein Teil oder die Gesamtheit des ASE-Systems 210 auf einer Rechenausrüstung installiert sein und mittels dieser verarbeitet werden, die sich an einem von dem Fahrzeug 12 entfernten Ort, wie beispielsweise dem Callcenter 20, befindet. Beispielsweise können Grammatikmodelle, Akustikmodelle und dergleichen in dem Speicher eines der Server 82 und/oder einer der Datenbanken 84 in dem Callcenter 20 abgespeichert sein und zur fahrzeuginternen Sprachverarbeitung an die Fahrzeugtelematikeinheit 30 übermittelt werden. In ähnlicher Weise kann die Spracherkennungssoftware unter Verwendung von Prozessoren von einem der Server 82 in dem Callcenter 20 verarbeitet werden. Mit anderen Worten kann das ASE-System 210 in der Telematikeinheit 30 fest abgespeichert sein oder in beliebiger gewünschter Weise über das Callcenter 20 und das Fahrzeug 12 hinweg verteilt sein.
  • Als erstes werden aus menschlicher Sprache Akustikdaten extrahiert, wobei ein Fahrzeuginsasse in das Mikrophon 32 spricht, welches die Äußerungen in elektrische Signale umwandelt und solche Signale an die Akustikschnittstelle 33 übermittelt. Ein lautempfindliches Element in dem Mikrophon 32 erfasst die Sprachäußerungen des Insassen als Schwankungen des Luftdrucks und wandelt die Äußerungen in entsprechende Schwankungen analoger elektrischer Signale, wie beispielsweise von Gleichstrom oder Gleichspannung, um. Die Akustikschnittstelle 33 empfängt die analogen elektrischen Signale, die als Erstes derart abgetastet werden, dass Werte des Analogsignals zu diskreten Zeitpunkten erfasst werden, und anschließend derart quantisiert werden, dass die Amplituden der Analogsignale zu jedem Abtastzeitpunkt in einen kontinuierlichen Strom von digitalen Sprechdaten umgewandelt werden. Mit anderen Worten, die Akustikschnittstelle 33 wandelt die analogen elektrischen Signale in digitale elektronische Signale um. Bei den digitalen Daten handelt es sich um Binärbits, die in dem Telematikspeicher 54 zwischengespeichert und dann durch den Telematikprozessor 52 verarbeitet werden, oder die gleich zu Beginn, wenn sie empfangen werden, durch den Prozessor 52 in Echtzeit verarbeitet werden können.
  • Als Zweites wird durch das Präprozessormodul 212 der kontinuierliche Strom von digitalen Sprechdaten in diskrete Abfolgen von Akustikparametern transformiert. Im Spezielleren führt der Prozessor 52 das Präprozessormodul 212 aus, um die digitalen Sprechdaten in einander überschneidende phonetische oder akustische Frames mit einer Dauer von beispielsweise 10–30 ms zu segmentieren. Die Frames entsprechen akustischen Subwörtern, wie beispielsweise Silben, Halbsilben, Phonen, Diphonen, Phonemen oder dergleichen. Durch das Präprozessormodul 212 erfolgt auch eine phonetische Analyse, um innerhalb jedes Frames Akustikparameter, wie beispielsweise zeitvariable Merkmalsvektoren, aus dem Sprachfluss des Insassen zu extrahieren. Äußerungen innerhalb des Sprachflusses des Insassen lassen sich als Abfolgen dieser Merkmalsvektoren darstellen. Es können beispielsweise Merkmalsvektoren in einer dem Fachmann bekannten Art und Weise extrahiert werden und diese können beispielsweise Tonhöhe, Energieprofile, Spektrum-Attribute und/oder Cepstrum-Koeffizienten umfassen, die gewonnen werden können, indem die Frames Fourier-Transformationen unterzogen werden und Akustikspektren unter Verwendung von Kosinustransformationen dekorreliert werden. Akustische Frames und entsprechende Parameter, die eine bestimmte Sprechdauer abdecken, werden zu unbekannten Testmustern von zu decodierendem Sprachfluss verknüpft.
  • Als Drittes führt der Prozessor das Decodierermodul 214 aus, um die eingehenden Merkmalsvektoren eines jeden Testmusters zu verarbeiten. Das Decodierermodul 214 wird auch Erkennungsmaschine oder Klassifizierer genannt und verwendet gespeicherte, bekannte Sprachfluss-Referenzmuster. Gleich den Testmustern, sind auch die Referenzmuster jeweils als eine Verknüpfung von miteinander in Beziehung stehenden akustischen Frames und entsprechenden Parametern definiert. Das Decodierermodul 214 vergleicht die Akustikmerkmalsvektoren eines zu erkennenden Subworttestmusters mit gespeicherten Subwortreferenzmustern und stellt diese gegenüber, bewertet den Umfang der Unterschiede oder Ähnlichkeiten zwischen ihnen und verwendet schließlich eine Entscheidungslogik, um ein am besten übereinstimmendes Subwort als das erkannte Subwort auszuwählen. Im Allgemeinen ist das am besten übereinstimmende Subwort jenes, welches dem gespeicherten, bekannten Referenzmuster entspricht, das eine minimale Unähnlichkeit zu dem Testmuster aufweist oder dieses mit der größten Wahrscheinlichkeit darstellt, wie es durch ein beliebiges von verschiedenen dem Fachmann bekannten Verfahren zum Analysieren und Erkennen von Subwörtern, bestimmt wird. Solche Techniken können 'Dynamit Time Warping'-Klassifizierer, Techniken aus der Künstlichen Intelligenz, neuronale Netze, Einrichtungen zur Erkennung freier Phoneme und/oder probabilistische Einrichtungen zur Inübereinstimmungbringung von Mustern, wie beispielsweise 'Hidden Markov Model'-Maschinen (HMM-Maschinen) umfassen.
  • HMM-Maschinen erzeugen, wie dem Fachmann bekannt, mehrere Hypothesen für Modelle zur Spracherkennung aus akustischen Eingabedaten. Die Hypothesen werden über eine Merkmalsanalyse des Sprachflusses beim abschließenden Identifizieren und Auswählen jener Erkennungsausgabedaten berücksichtigt, welche die am wahrscheinlichsten korrekte Decodierung der Akustikeingabedaten darstellen. Im Spezielleren erzeugt eine HMM-Maschine statistische Modelle in Form einer Liste der auf HMM-berechneten Konfidenzwerten oder Wahrscheinlichkeiten beruhenden ”N besten” Hypothesen für Subwortmodelle zu einer beobachteten Abfolge von Akustikdaten, der beispielsweise durch die Anwendung des Bayes'schen Theorems das eine oder andere Subwort zugewiesen wird.
  • Ein Bayes'scher HMM-Prozess identifiziert eine beste Hypothese, die der wahrscheinlichsten Äußerung oder Subwortabfolge für eine gegebene, beobachtete Abfolge von Akustikmerkmalsvektoren entspricht, und ihre Konfidenzwerte können von einer Vielzahl von Faktoren, einschließlich der mit den eingehenden Akustikdaten in Verbindung stehenden, akustischen Signal/Rauschverhältnisse, abhängen. Das HMM kann auch eine statistische Verteilung umfassen, welche eine Mischung von diagonalen Gaußverteilungen genannt wird, die einen Wahrscheinlichkeits-Punktewert für jeden beobachteten Merkmalsvektor jedes Subworts liefert, wobei die Punktewerte dazu verwendet werden können, die Liste der N besten Hypothesen neu zu ordnen. Die HMM-Maschine kann auch ein Subwort identifizieren und auswählen, dessen Wahrscheinlichkeitspunktewert für die Modellentsprechung am höchsten ist.
  • In ähnlicher Weise können einzelne HMMs für eine Abfolge von Subwörtern miteinander verknüpft werden, um Einwort- oder Mehrwort-HMMs zu erstellen. Daraufhin kann eine Liste der N besten Einwort- oder Mehrwort-Referenzmuster samt zugeordneten Parameterwerten generiert und weiter ausgewertet werden.
  • Bei einem Beispiel verarbeitet der Spracherkennungsdecodierer 214 die Merkmalsvektoren unter Verwendung der geeigneten Akustikmodelle, Grammatiken und Algorithmen, um eine Liste der N besten Referenzmuster zu erzeugen. Der hier verwendete Begriff Referenzmuster ist durch Modelle, Wellenformen, Vorlagen, Rich-Signal-Modelle, Musterbeispiele, Hypothesen oder andere Referenztypen austauschbar. Ein Referenzmuster kann eine Reihe von Merkmalsvektoren umfassen, die ein oder mehrere Wörter oder Subwörter repräsentieren, und kann auf individuellen Sprechern, Sprecharten und Hörumfeldbedingungen basieren. Der Fachmann wird erkennen, dass Referenzmuster durch ein geeignetes Referenzmustertraining des ASE-Systems erzeugt und abgespeichert werden können. Der Fachmann wird außerdem erkennen, dass abgespeicherte Referenzmuster bearbeitet werden können, wobei Parameterwerte der Referenzmuster auf der Grundlage von Unterschieden bei dem Spracheingangssignal zwischen dem Referenzmustertraining und der tatsächlichen Verwendung des ASE-Systems angepasst werden. Beispielsweise kann ein Satz von Referenzmustern, die für einen bestimmten Fahrzeuginsassen oder für bestimmte Akustikbedingungen trainiert worden sind, angepasst werden und als ein anderer Satz von Referenzmustern für einen anderen Fahrzeuginsassen oder für andere Akustikbedingungen abgespeichert werden, und zwar auf der Grundlage einer begrenzten Menge von Trainingsdaten, die jeweils von dem anderen Fahrzeuginsassen oder den anderen Akustikbedingungen stammen. Mit anderen Worten, die Referenzmuster sind nicht notwendigerweise feststehend und können während der Spracherkennung nachjustiert werden.
  • Unter Verwendung der vokabularintemen Grammatik und eines beliebigen geeigneten Decodiereralgorithmus und Akustikmodells/beliebiger geeigneter Decodiereralgorithmen und Akustikmodelle (nachfolgend numerusneutral 'Decodiereralgorithmus' bzw. 'Akustikmodell' genannt) ruft der Prozessor von dem Speicher verschiedene Referenzmuster ab, durch welche das Testmuster interpretiert wird. Beispielsweise kann der Prozessor eine Liste der N besten Vokabularergebnisse oder Referenzmuster erzeugen und zusammen mit entsprechenden Parameterwerten abspeichern. Beispielhafte Parameterwerte können Konfidenzpunktewerte eines jeden Referenzmusters in der Liste der N besten Vokabularergebnisse und zugehörige Segmentdauern, Wahrscheinlichkeits-Punktewerte, Signal/Rauschverhältniswerte (SNR-Werte) und/oder dergleichen umfassen. Die Liste der N besten Vokabularergebnisse kann nach der Parameterwertgröße absteigend angeordnet werden. Beispielsweise ist das Referenzmuster aus den Vokabularergebnissen, welches den höchsten Konfidenzpunktewert aufweist, das erste der N besten Referenzmuster und so weiter. Sobald eine Kette von erkannten Subwörtern erstellt ist, können diese dazu verwendet werden, unter Zuhilfenahme von Eingangsdaten aus den Wortmodellen 222 Wörter zu konstruieren und unter Zuhilfenahme von Eingangsdaten aus den Sprachmodellen 224 Sätze zu konstruieren.
  • Schließlich empfängt das Postprozessor-Softwaremodul/empfangen die Postprozessor-Softwaremodule 216 (nachfolgend numerusneutral 'Postprozessor-Softwaremodul' genannt) die Ausgangsdaten von dem Decodierermodul 214 im Hinblick auf einen beliebigen geeigneten Zweck. Bei einem Beispiel kann das Postprozessor-Softwaremodul 216 eines der Referenzmuster aus der Liste der N besten Einwort- oder Mehrwort-Referenzmuster als erkannten Sprachfluss identifizieren oder auswählen. Bei einem anderen Beispiel kann das Postprozessormodul 216 dazu verwendet werden, Akustikdaten in Text oder Ziffern zur Verwendung mit anderen Aspekten des ASE-Systems oder mit anderen Fahrzeugsystemen umzuwandeln. Bei einem weiteren Beispiel kann das Postprozessormodul 216 dazu verwendet werden, dem Decodierer 214 oder dem Präprozessor 212 eine Trainingsrückmeldung zu liefern. Im Spezielleren kann der Postprozessor 216 dazu verwendet werden, Akustikmodelle für das Decodierermodul 214 zu trainieren, oder Abstimmungsparameter für das Präprozessormodul 212 zu trainieren.
  • Verfahren
  • In 3 und 4, die nun einer genaueren Betrachtung unterzogen werden, sind spracherkennungsbezogene Verfahren 300, 400 gezeigt, die unter Verwendung einer geeigneten Programmierung des ASE-Systems 210 aus 2 innerhalb der Betriebsumgebung der Fahrzeugtelematikeinheit 30 sowie unter Verwendung geeigneter Hardware und unter geeigneter Programmierung der anderen in 1 gezeigten Komponenten realisiert werden können. Eine solche Programmierung und Verwendung der weiter oben beschriebenen Hardware wird für den Fachmann auf der Grundlage der obigen Systembeschreibung und der Erörterung des weiter unten in Verbindung mit den verbleibenden Figuren beschriebenen Verfahrens ersichtlich. Für den Fachmann ist außerdem erkenntlich, dass die Verfahren auch unter Verwendung anderer ASE-Systeme innerhalb anderer Betriebsumgebungen realisiert werden können.
  • Im Allgemeinen wird durch ein Verfahren 300 zur Erzeugung von Akustikmodellen die automatische Spracherkennung verbessert, indem Akustikmodelle, die ausgehend von Sprachmaterial trainiert worden sind, das von männlichen Sprechern einer ersten Sprache gewonnen worden ist, in Reaktion auf sprachenunabhängige Sprechdaten von weiblichen Sprechern einer zweiten Sprache angepasst werden. Demgemäß werden Proxy-Akustikmodelle zur Verwendung während der Laufzeit der Spracherkennung einer Äußerung eines weiblichen Sprechers der ersten Sprache erzeugt. Die Erkennung des Sprachflusses eines weiblichen Sprechers wird verbessert, weil ungeachtet der Tatsache, dass für bestimmte weibliche Sprecher keine Trainingsdaten für Akustikmodelle verfügbar sind, gute weibliche Proxy-Akustikmodelle einer gegebenen Sprache verwendet werden können.
  • In 3, auf welche nun Bezug genommen wird, beginnt das Verfahren 300 in einer beliebigen, geeigneten Weise bei Schritt 305.
  • In Schritt 310 können Akustikmodelle unter Heranziehung von männlichen Sprechern einer ersten Sprache trainiert werden. Das Training von Akustikmodellen kann Schätzverfahren der maximalen Wahrscheinlichkeit (Maximum-Likelihood-Methode), Verfahren der minimalen Klassifizierungsfehler, konditionale Maximum-Likelihood-Verfahren, welche alle dem Fachmann allgemein bekannt sind, umfassen und es können auch beliebige andere geeignete Verfahren verwendet werden. Bei den Akustikmodellen kann es sich um Wortmodelle, Phonemmodelle oder Subwortmodelle handeln. Jede geeignete Anzahl von männlichen Sprechern kann dafür herangezogen werden. Bei der ersten Sprache kann es sich um Arabisch, Chinesisch oder jede beliebige andere Sprache handeln.
  • In Schritt 315 werden die in Schritt 310 trainierten Akustikmodelle in Reaktion auf sprachenunabhängige Sprechdaten von weiblichen Sprechern einer zweiten Sprache angepasst, um Proxy-Akustikmodelle zur Verwendung während der Laufzeit der Spracherkennung einer Äußerung eines weiblichen Sprechers der ersten Sprache zu erzeugen. Beispielsweise können Maximum-Likelihood-Linear-Regression-Verfahren (MLLR-Verfahren) Sprechdaten von weiblichen Sprechern des Englischen dazu verwenden, die Mittelfrequenzen von Akustikmodellen von männlichen Sprechern des Arabischen nachzujustieren. Beliebige geeignete MLLR-Verfahren können dazu verwendet werden und sind dem Fachmann auch allgemein bekannt, wie aus dem Fachartikel 'Variance compensation within the MLLR framework for robust speech recognition and speaker adaptation' (Varianzkompensation innerhalb der MLLR-Umgebung im Hinblick auf eine robuste Spracherkennung und Sprecheranpassung), Gales, M., D. Pye, und P. Woodland, In Proc. ICSLP, pp. 1832–1835, (1996), hervorgeht.
  • In Schritt 320 können die in Schritt 315 erzeugten Proxy-Akustikmodelle während der Laufzeit der automatischen Spracherkennung zum Erkennen der Sprache eines weiblichen Sprechers der ersten Sprache verwendet werden.
  • In 325 kann das Verfahren in einer beliebigen geeigneten Weise enden.
  • In einer Ausführungsform des Schrittes 315 werden die Akustikmodelle vor der Laufzeit der Spracherkennung angepasst. Es können beispielsweise Maximum-Likelihood-Linear-Regression-Verfahren oder beliebige andere geeignete Anpassungsverfahren verwendet werden, um im Rahmen der Anwendung einer Vorlage für Formantenfrequenzen und Frequenzbänder sprachenunabhängiger Sprechdaten die Mittelfrequenzen der Akustikmodelle derart anzupassen, dass diese die weiblichen Proxy-Akustikmodelle zum Ergebnis haben.
  • In einer anderen Ausführungsform des Schrittes 315 werden die Akustikmodelle während der Laufzeit des Sprachflusses angepasst. Diese Ausführungsform ist weiter unten unter Bezugnahme auf 4 und Verfahren 400 im Einzelnen beschrieben.
  • Im Allgemeinen wird durch das Spracherkennungsverfahren 400 die Spracherkennung verbessert, indem Akustikmodelle, die ausgehend von Sprachmaterial von männlichen Sprechern einer ersten Sprache trainiert worden sind, in Reaktion auf das Identifizieren von zumindest einem aus einer Mehrzahl von Formantenfrequenzbändern in Sprechdaten von weiblichen Sprechern einer zweiten Sprache, das zumindest einer Formantenfrequenz in dem Sprachfluss entspricht, der von einem weiblichen Sprecher der ersten Sprache gewonnen wird, angepasst werden. Die Erkennung des Sprachflusses eines weiblichen Sprechers wird verbessert, weil ungeachtet der Tatsache, dass für bestimmte weibliche Sprecher keine Trainingsdaten für Akustikmodelle verfügbar sind, gute weibliche Proxy-Akustikmodelle einer gegebenen Sprache verwendet werden können.
  • In 4, auf welche nun Bezug genommen wird, beginnt das Verfahren 400 in einer beliebigen geeigneten Weise bei Schritt 405. Ein Fahrzeugbenutzer startet beispielsweise die Interaktion mit der Benutzerschnittstelle der Telematikeinheit 30 vorzugsweise durch Drücken der Drucktaste 34 der Benutzerschnittstelle, um eine Sitzung zu beginnen, bei welcher der Benutzer Sprachbefehle eingibt, die von der Telematikeinheit 30 interpretiert werden, während diese im Spracherkennungsmodus betrieben wird.
  • Unter Verwendung des Audiosystems 36 kann die Telematikeinheit 30 die Betätigung der Drucktaste durch das Abspielen eines Tons oder durch die verbale Aufforderung zu einer Befehlseingabe seitens des Benutzers oder Insassen bestätigen. Das Verfahren 400 wird während der Laufzeit der Spracherkennung ausgeführt.
  • In Schritt 410 wird die Sprache in einer beliebigen geeigneten Weise empfangen. So kann etwa das Telematikmikrophon 32 Sprachäußerungen eines Benutzers empfangen und die Akustikschnittstelle 33 kann den Sprachfluss in Akustikdaten digitalisieren. In einer Ausführungsform handelt es sich bei der Sprachäußerung um einen Befehl, beispielsweise um einen in einem Systemmenü erwarteten Befehl. In einer spezielleren Ausführungsform handelt es sich bei dem Befehl um ein erstes Befehlswort in einem System-Hauptmenü nach Beginn des Verfahrens 300. Der Sprachfluss kann eine oder mehrere Äußerungen umfassen.
  • In Schritt 415 wird der empfangene Sprachfluss vorverarbeitet, um Akustikmerkmalsvektoren zu erzeugen. Die von der Akustikschnittstelle 33 kommenden Akustikdaten können beispielsweise durch das Präprozessormodul 212 des ASE-Systems 210 wie weiter oben beschrieben vorverarbeitet werden.
  • In Schritt 420 werden sprachenunabhängige Sprechdaten des empfangenen Sprachflusses bestimmt. Beispielsweise kann die Tonhöhe und/oder eine oder mehrere Formantenfrequenzen des empfangenen Sprachflusses in beliebiger geeigneter Weise geschätzt, detektiert oder sonst wie bestimmt werden. In einem Beispiel stellt die Cepstrumanalyse eine gute Schätzung von Grundharmonischer, Tonhöhenfrequenz und dergleichen bereit, und liefert Informationen über glottale Pulse und Vokaltrakt-Frequenzgang. Als weitere Beispiele sind zu nennen die Analyse der Nulldurchgangsrate in der Zeitdomäne des Sprachsignals, Linearvorhersage-Codierungsalgorithmen und/oder Autokorrelationsanalyse des Sprachflusses in der Zeitdomäne. Solche Verfahren sind dem Fachmann allgemein bekannt, wie aus verschiedenen Veröffentlichungen hervorgeht, wobei hier zu nennen sind: Oppenheim, A. V., Johnson, D. H. (1972) 'Discrete representation of signals' (Diskrete Repräsentation von Signalen), Proceedings of the IEEE, Bd. 60, Nr. 6, pp. 681–691, June 1972; 'Speech and Audio Signal Processing, Processing & Perception of Speech and Music' (Sprach- und Audiosignalverarbeitung, Verarbeitung und Perzeption von Sprache und Musik), Ben Gold und Nelson Morgan, John Wiley & Sons, 2001; und 'Fundamentals of Speech Recognition' (Grundlagen der Spracherkennung), Lawrence Rabiner & Biing-Hwang Juang, Prentice Hall, 1993.
  • In Schritt 425 kann ein Spracherkennungs-Präprozessor sprachenunabhängige Sprechdaten von weiblichen Sprechern einer zweiten Sprache identifizieren, die den in Schritt 420 bestimmten sprachenunabhängigen Sprechdaten entsprechen. Die sprachenunabhängigen Sprechdaten können beispielsweise die Tonhöhe und/oder zumindest eines aus einer Mehrzahl von Formantenfrequenzbändern oder Bins aus dem Sprachfluss von weiblichen Sprechern der zweiten Sprache umfassen. Die Sprechdaten von weiblichen Sprechern der zweiten Sprache können Datenbanken mit voraufgezeichneten Sprachäußerungen, statistischen Modellen, einer oder mehreren Formantenfrequenzvorlagen der Sprachäußerung und/oder dergleichen enthalten. In einer spezifischen Veranschaulichung können die Sprechdaten eine Formantenfrequenzvorlagenverteilung mit 20 Bindern oder Bins von einander überlappenden Frequenzbereichen und beabstandeten Mittelfrequenzen umfassen. Erste Formantenfrequenzen in der Vorlage können sich von 600 Hz bis 1200 Hz über 12 der 20 Bins mit einem Abstand von 50 Hz erstrecken. In diesem Fall kann eine Äußerung des weiblichen Sprechers der ersten Sprache eine Formantenfrequenz von 900 Hz umfassen, welche dem achten Band oder Bin der Vorlage entspricht.
  • In Schritt 430 werden Akustikmodelle, die aus dem Sprachfluss von männlichen Sprechern der ersten Sprache gewonnen worden sind, in Reaktion auf die Identifizierung von sprachenunabhängigen Sprechdaten aus Schritt 425 angepasst. Die Anpassung von Akustikmodellen ist dem Fachmann allgemein bekannt und es können dazu beliebige geeignete Verfahren verwendet werden. Die Akustikmodelle können beispielsweise durch Frequenzverzerrung der Akustikmodelle mit Formantenfrequenzdaten von weiblichen Sprechern der ersten Sprache angepasst werden, so dass die Akustikmodelle im Hinblick auf eine bessere Übereinstimmung mit dem empfangenen Sprachfluss angepasst sind. Ein besonderes Verfahren, das hierzu verwendet werden kann, umfasst die sogenannte Vokaltraktlängennormalisierung (Vocal Tract Length Normalization, VTLN), wobei die Tonhöhe und/oder die Formantenfrequenzen für den weiblichen Sprecher der ersten Sprache zur Anpassung der männlichen Akustikmodelle verwendet werden. Die VTLN ist dem Fachmann allgemein bekannt, wie dies aus dem Fachartikel 'Vocal Tract Length Normalization in Speech Recognition-Compensation for Systematic Speaker Variability' (Vokaltraktlängennormalisierung bei der Spracherkennungs-Kompensation für systematische Sprechervariabilität), Kamm. T., Andreou A, Cohen J., Proceedings of 15th Annual Speech Research Symposium, Baltimore, MY, Juni 1995, hervorgeht.
  • In einer Ausführungsform kann die Formantenfrequenz des Bestimmungsschritts 420 einen Mittelwert aus einer Mehrzahl von Formantenfrequenzen der empfangenen Äußerung umfassen. Im Spezielleren kann die Mehrzahl von Formantenfrequenzen der empfangenen Äußerung einen ersten Formanten und/oder einen zweiten Formanten und/oder einen dritten Formanten umfassen. In einem Beispiel kann die erste Formantenfrequenz wie folgt charakterisiert sein: Mittlere F1 = F1(Konsonant1) + F1(Konsonant2) + F1(Vokal1) + F1(Konsonant3) ... F1(N-te Silbe)/N. Ähnliche Charakterisierungen können für die Formanten F2 und/oder F3 vorgenommen werden.
  • In einer anderen Ausführungsform umfasst die Formantenfrequenz des Bestimmungsschritts 420 einen ersten Formanten, einen zweiten Formanten und einen dritten Formanten. In diesem Beispiel werden die drei Formantenfrequenzen, nämlich F1, F2 und F3 dazu verwendet, die Mittelfrequenzen von Filterbändern in den männlichen Akustikmodellen nachzujustieren. Wenn Fmittel = Funktion (F1, F2, F3), dann ist λTransformiert = Funktion (λMännlich, FMittel).
  • Unter Weiterführung des Beispiels aus Schritt 425 können beliebige geeignete Frequenzverzerrungsverfahren an den männlichen Akustikmodellen durchgeführt werden, die darauf basieren, dass die identifizierte Frequenz in einem speziellen Band oder Bin, z. B. in dem achten Band oder Bin, gelegen ist. Demzufolge können die Akustikmodelle bandspezifisch einer Frequenzverzerrung unterzogen werden.
  • In Schritt 435 werden die erzeugten Akustikmerkmalsvektoren unter Verwendung der angepassten Akustikmodelle aus Schritt 425 decodiert, um eine Mehrzahl von Hypothesen für den empfangenen Sprachfluss zu erstellen. Bei der Mehrzahl von Hypothesen kann es sich beispielsweise um eine Liste der N besten Hypothesen handeln und das Decodierermodul 214 des ASE-Systems 210 kann dazu verwendet werden, die Akustikmerkmalsvektoren zu decodieren.
  • In Schritt 440 wird die Mehrzahl von Hypothesen nachverarbeitet, um eine aus der Mehrzahl von Hypothesen als die empfangene Sprachäußerung zu identifizieren. Der Postprozessor 216 des ASE-Systems 210 kann beispielsweise die Hypothesen nachverarbeiten, um die erste der besten Hypothesen als die empfangene Sprachäußerung zu identifizieren. In einem anderen Beispiel kann der Postprozessor 216 die Liste der N besten Hypothesen in beliebiger geeigneter Weise neu anordnen und nach der Neuanordnung die erste der besten Hypothesen identifizieren.
  • In Schritt 445 kann das Verfahren 400 in einer beliebigen geeigneten Weise enden.
  • Die Verfahren oder Teile davon können in einem Computerprogrammprodukt implementiert sein, das Befehle umfasst, die auf einem computerlesbaren Trägermedium zur Verwendung durch einen oder mehrere Prozessoren von einem oder mehreren Computer vorhanden sind, um einen oder mehrere der Verfahrensschritte zu implementieren. Das Computerprogrammprodukt kann umfassen: ein oder mehrere Softwareprogramme, die aus Programmbefehlen in Quellcode, Objektcode, ausführbarem Code oder in anderen Formaten bestehen; ein oder mehrere Firmwareprogramme; oder Dateien in Hardwarebeschreibungssprache (HDL-Dateien); sowie beliebige sonstige programmbezogene Daten. Die Daten können Datenstrukturen, Nachschlagetabellen oder Daten in einem beliebigen sonstigen, geeigneten Format umfassen. Die Programmbefehle können Programmmodule, Routinen, Programme, Objekte, Komponenten und/oder dergleichen umfassen. Das Computerprogramm kann auf einem Computer oder auf mehreren miteinander kommunizierenden Computer ausgeführt werden.
  • Das Programm kann/Die Programme können auf einem computerlesbaren Medium vorhanden sein, welches eine oder mehrere Speichereinrichtungen, Fertigungsartikel oder dergleichen umfassen kann. Als beispielhafte computerlesbare Medien sind zu nennen: Computer-Systemspeicher, z. B. RAM (Direktzugriffsspeicher), ROM (Festwertspeicher); Halbleiterspeicher, z. B. EPROM (lösch- und programmierbarer ROM), EEPROM (elektrisch löschbarer und programmierbarer ROM), Flash-Speicher; magnetische oder optische Speicherplatten oder Bänder; und/oder dergleichen. Das computerlesbare Medium kann auch Verbindungen zwischen Computern umfassen, beispielsweise wenn Daten über ein Netzwerk oder eine andere Kommunikationsverbindung (entweder drahtgebunden, drahtlos oder kombiniert) übertragen oder bereitgestellt werden. Jegliche beliebige(n) Kombination(en) aus den oben beschriebenen Beispielen ist/sind ebenfalls im Umfang des computerlesbaren Mediums enthalten. Es versteht sich daher, dass das Verfahren zumindest teilweise durch alle beliebigen Elektronikartikel und/oder -einrichtungen ausgeführt werden kann, die in der Lage sind, Befehle auszuführen, welche einem oder mehreren Schritten des offenbarten Verfahrens entsprechen.
  • Es versteht sich, dass es sich bei dem weiter oben Erwähnten um eine Beschreibung einer oder mehrerer bevorzugter, beispielhafter Ausführungsformen der Erfindung handelt. Die Erfindung ist nicht auf die hier offenbarte(n) spezielle(n) Ausführungsform(en) beschränkt, sondern ist vielmehr ausschließlich durch die nachfolgenden Ansprüche definiert.
  • Darüber hinaus beziehen sich die in der obigen Beschreibung getroffenen Aussagen auf besondere Ausführungsformen und sind nicht als Einschränkungen des Umfangs der Erfindung oder der Definition von Begriffen, die in den Ansprüchen verwendet werden, auszulegen, es sei denn, ein Begriff oder eine Phrase ist weiter oben ausdrücklich definiert. Verschiedene andere Ausführungsformen und verschiedene Abänderungen und Modifikationen der offenbarten Ausführungsform(en) sind für den Fachmann ersichtlich. Die Erfindung kann beispielsweise auf andere Gebiete der Sprachsignalverarbeitung, wie etwa auf die mobile Telekommunikation, auf Internettelefonie-Anwendungen (VoIP-Anwendungen) und dergleichen angewendet werden. Alle solchen anderen Ausführungsformen, Veränderungen und Modifikationen sollen innerhalb des Umfangs der beigefügten Ansprüche gelegen sein.
  • Die in dieser Beschreibung und in den Ansprüchen verwendeten Begriffe ”beispielsweise”, ”zum Beispiel”, ”wie zum Beispiel” und ”wie”, sowie die Verben ”umfassend”, ”aufweisend”, ”einschließend” und deren andere Verbformen in Verbindung mit einer Auflistung eines oder mehrerer Bauteile oder sonstiger Gegenstände, sind jeweils als unbeschränkt und offen aufzufassen, was bedeutet, dass die Auflistung nicht so zu betrachten ist, dass andere, zusätzliche Bauteile oder Gegenstände davon ausgeschlossen sind. Andere Begriffe sind in ihrer weitesten, vernünftigen Bedeutung aufzufassen, sofern sie nicht in einem Zusammenhang verwendet sind, der eine andere Auslegung erfordert.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • IEEE 802.11-Protokolle [0015]
    • Gales, M., D. Pye, und P. Woodland, In Proc. ICSLP, pp. 1832–1835, (1996) [0044]
    • Oppenheim, A. V., Johnson, D. H. (1972) 'Discrete representation of signals' (Diskrete Repräsentation von Signalen), Proceedings of the IEEE, Bd. 60, Nr. 6, pp. 681–691, June 1972 [0054]
    • 'Speech and Audio Signal Processing, Processing & Perception of Speech and Music' (Sprach- und Audiosignalverarbeitung, Verarbeitung und Perzeption von Sprache und Musik), Ben Gold und Nelson Morgan, John Wiley & Sons, 2001 [0054]
    • 'Fundamentals of Speech Recognition' (Grundlagen der Spracherkennung), Lawrence Rabiner & Biing-Hwang Juang, Prentice Hall, 1993 [0054]
    • Kamm. T., Andreou A, Cohen J., Proceedings of 15th Annual Speech Research Symposium, Baltimore, MY, Juni 1995 [0056]

Claims (10)

  1. Verfahren zum Erzeugen von Proxy-Akustikmodellen für die Verwendung bei der automatischen Spracherkennung, welches die Schritte umfasst, dass: (a) ausgehend von Sprachmaterial, das über Mikrophon von männlichen Sprechern einer ersten Sprache gewonnen worden ist, Akustikmodelle trainiert werden, und (b) die in Schritt (a) trainierten Akustikmodelle in Reaktion auf sprachenunabhängige Sprechdaten von weiblichen Sprechern einer zweiten Sprache angepasst werden, um Proxy-Akustikmodelle zur Verwendung während der Laufzeit der Spracherkennung einer Äußerung eines weiblichen Sprechers der ersten Sprache zu erzeugen.
  2. Verfahren nach Anspruch 1, wobei der Anpassungsschritt (b) vor der Laufzeit der Spracherkennung durchgeführt wird.
  3. Verfahren nach Anspruch 1, wobei der Anpassungsschritt (b) an der Äußerung des weiblichen Sprechers der ersten Sprache während der Laufzeit der Spracherkennung durchgeführt wird.
  4. Verfahren nach Anspruch 3, wobei der Anpassungsschritt (b) in Reaktion auf eine Identifizierung von zumindest einem aus einer Mehrzahl von Formantenfrequenzbändern in den Sprechdaten der weiblichen Sprecher der zweiten Sprache erfolgt, das zumindest einer Formantenfrequenz entspricht, die in der Äußerung des weiblichen Sprechers der ersten Sprache bestimmt wird.
  5. Verfahren nach Anspruch 4, wobei der Anpassungsschritt (b) durch Frequenzverzerrung der in Schritt (a) trainierten Akustikmodelle in Reaktion auf die Identifizierung des zumindest einen aus der Mehrzahl von Formantenfrequenzbändern in den Sprechdaten der weiblichen Sprecher der zweiten Sprache durchgeführt wird.
  6. Verfahren nach Anspruch 4, wobei es sich bei der zumindest einen Formantenfrequenz, die in der Äußerung des weiblichen Sprechers der ersten Sprache bestimmt wird, um einen Mittelwert aus einer Mehrzahl von Formantenfrequenzen in der empfangenen Äußerung handelt.
  7. Verfahren nach Anspruch 6, wobei die Mehrzahl von Formantenfrequenzen in der empfangenen Äußerung von einem ersten Formanten und/oder einem zweiten Formanten und/oder einem dritten Formanten stammt.
  8. Verfahren nach Anspruch 6, wobei die zumindest eine Formantenfrequenz des Bestimmungsschritts (c) einen ersten Formanten, einen zweiten Formanten und einen dritten Formanten umfasst.
  9. Verfahren zur automatischen Spracherkennung, welches die Schritte umfasst, dass: (a) eine Äußerung über ein Mikrophon von einem weiblichen Sprecher einer ersten Sprache empfangen wird; (b) die Äußerung mit einem Präprozessor zur automatischen Spracherkennung vorverarbeitet wird, um Akustikmerkmalsvektoren zu erzeugen; (c) zumindest eine Formantenfrequenz der empfangenen Äußerung bestimmt wird; (d) zumindest eines aus einer Mehrzahl von Formantenfrequenzbändern in Sprechdaten von weiblichen Sprechern einer zweiten Sprache identifiziert wird, das der zumindest einen in Schritt (c) bestimmten Formantenfrequenz entspricht; und (e) Akustikmodelle, die ausgehend von Sprachmaterial von männlichen Sprechern der ersten Sprache trainiert worden sind, in Reaktion auf den Identifikationsschritt (d) angepasst werden, um als Ergebnis Proxy-Akustikmodelle für die weiblichen Sprecher der ersten Sprache zu liefern.
  10. Verfahren nach Anspruch 9, welches weiterhin umfasst, dass als Schritt (f) die in Schritt (b) erzeugten Akustikmerkmalsvektoren unter Verwendung eines Prozessors und der in Schritt (e) angepassten Akustikmodelle decodiert werden, um eine Mehrzahl von Hypothesen für die empfangene Äußerung zu erstellen.
DE102011120315A 2010-12-10 2011-12-06 Anpassung männlicher Akustikmodelle auf der Basis von sprachunabhängigen weiblichen Sprechdaten Expired - Fee Related DE102011120315B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/965,508 US8756062B2 (en) 2010-12-10 2010-12-10 Male acoustic model adaptation based on language-independent female speech data
US12/965,508 2010-12-10

Publications (2)

Publication Number Publication Date
DE102011120315A1 true DE102011120315A1 (de) 2012-06-14
DE102011120315B4 DE102011120315B4 (de) 2013-02-28

Family

ID=46144917

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102011120315A Expired - Fee Related DE102011120315B4 (de) 2010-12-10 2011-12-06 Anpassung männlicher Akustikmodelle auf der Basis von sprachunabhängigen weiblichen Sprechdaten

Country Status (3)

Country Link
US (1) US8756062B2 (de)
CN (1) CN102543077B (de)
DE (1) DE102011120315B4 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080256613A1 (en) * 2007-03-13 2008-10-16 Grover Noel J Voice print identification portal
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
CN104010914B (zh) * 2011-12-29 2017-11-07 英特尔公司 用于辨识车辆乘员的系统、方法和装置
US9495955B1 (en) * 2013-01-02 2016-11-15 Amazon Technologies, Inc. Acoustic model training
US9159315B1 (en) * 2013-01-07 2015-10-13 Google Inc. Environmentally aware speech recognition
US9640186B2 (en) 2014-05-02 2017-05-02 International Business Machines Corporation Deep scattering spectrum in acoustic modeling for speech recognition
US9858920B2 (en) * 2014-06-30 2018-01-02 GM Global Technology Operations LLC Adaptation methods and systems for speech systems
US9761223B2 (en) * 2014-10-13 2017-09-12 Ford Global Technologies, Llc Acoustic impulse response simulation
WO2017187712A1 (ja) * 2016-04-26 2017-11-02 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
US10650621B1 (en) 2016-09-13 2020-05-12 Iocurrents, Inc. Interfacing with a vehicular controller area network
EP3535751A4 (de) * 2016-11-10 2020-05-20 Nuance Communications, Inc. Verfahren für sprachenunabhängige aufweckworterkennung
CN110121633B (zh) 2016-12-29 2023-04-04 三星电子株式会社 用于通过使用谐振器来识别说话者的方法及设备
US10304454B2 (en) 2017-09-18 2019-05-28 GM Global Technology Operations LLC Persistent training and pronunciation improvements through radio broadcast
KR20200033707A (ko) * 2018-09-20 2020-03-30 삼성전자주식회사 전자 장치, 및 이의 학습 데이터 제공 또는 획득 방법
WO2020068056A1 (en) * 2018-09-25 2020-04-02 Google Llc Speaker diarization using speaker embedding(s) and trained generative model
US11620990B2 (en) 2020-12-11 2023-04-04 Google Llc Adapting automated speech recognition parameters based on hotword properties

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980917A (en) * 1987-11-18 1990-12-25 Emerson & Stern Associates, Inc. Method and apparatus for determining articulatory parameters from speech data
US5572624A (en) * 1994-01-24 1996-11-05 Kurzweil Applied Intelligence, Inc. Speech recognition system accommodating different sources
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6081660A (en) * 1995-12-01 2000-06-27 The Australian National University Method for forming a cohort for use in identification of an individual
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
KR19990059297A (ko) * 1997-12-30 1999-07-26 서평원 음성 인식 장치 및 방법
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
TW440810B (en) * 1999-08-11 2001-06-16 Ind Tech Res Inst Method of speech recognition
US6556969B1 (en) * 1999-09-30 2003-04-29 Conexant Systems, Inc. Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding
US6356868B1 (en) * 1999-10-25 2002-03-12 Comverse Network Systems, Inc. Voiceprint identification system
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7177814B2 (en) * 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
US7328154B2 (en) * 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
US8229744B2 (en) * 2003-08-26 2012-07-24 Nuance Communications, Inc. Class detection scheme and time mediated averaging of class dependent models
US20070294082A1 (en) * 2004-07-22 2007-12-20 France Telecom Voice Recognition Method and System Adapted to the Characteristics of Non-Native Speakers
US8036893B2 (en) * 2004-07-22 2011-10-11 Nuance Communications, Inc. Method and system for identifying and correcting accent-induced speech recognition difficulties
US20060064177A1 (en) * 2004-09-17 2006-03-23 Nokia Corporation System and method for measuring confusion among words in an adaptive speech recognition system
US7574359B2 (en) * 2004-10-01 2009-08-11 Microsoft Corporation Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
US7725316B2 (en) 2006-07-05 2010-05-25 General Motors Llc Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle
US7664643B2 (en) * 2006-08-25 2010-02-16 International Business Machines Corporation System and method for speech separation and multi-talker speech recognition
US8005666B2 (en) * 2006-10-24 2011-08-23 National Institute Of Advanced Industrial Science And Technology Automatic system for temporal alignment of music audio signal with lyrics
GB0623932D0 (en) * 2006-11-29 2007-01-10 Ibm Data modelling of class independent recognition models
US8423364B2 (en) * 2007-02-20 2013-04-16 Microsoft Corporation Generic framework for large-margin MCE training in speech recognition
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
JP5088050B2 (ja) * 2007-08-29 2012-12-05 ヤマハ株式会社 音声処理装置およびプログラム
CN101452446A (zh) * 2007-12-07 2009-06-10 株式会社东芝 目标语言单词变形的方法及装置
US8798994B2 (en) 2008-02-06 2014-08-05 International Business Machines Corporation Resource conservative transformation based unsupervised speaker adaptation
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US8645135B2 (en) 2008-09-12 2014-02-04 Rosetta Stone, Ltd. Method for creating a speech model
US8965765B2 (en) 2008-09-19 2015-02-24 Microsoft Corporation Structured models of repetition for speech recognition
US8892439B2 (en) * 2009-07-15 2014-11-18 Microsoft Corporation Combination and federation of local and remote speech recognition
US8571859B1 (en) * 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
'Fundamentals of Speech Recognition' (Grundlagen der Spracherkennung), Lawrence Rabiner & Biing-Hwang Juang, Prentice Hall, 1993
Gales, M., D. Pye, und P. Woodland, In Proc. ICSLP, pp. 1832-1835, (1996)
IEEE 802.11-Protokolle
Kamm. T., Andreou A, Cohen J., Proceedings of 15th Annual Speech Research Symposium, Baltimore, MY, Juni 1995
Oppenheim, A. V., Johnson, D. H. (1972) 'Discrete representation of signals' (Diskrete Repräsentation von Signalen), Proceedings of the IEEE, Bd. 60, Nr. 6, pp. 681-691, June 1972
'Speech and Audio Signal Processing, Processing & Perception of Speech and Music' (Sprach- und Audiosignalverarbeitung, Verarbeitung und Perzeption von Sprache und Musik), Ben Gold und Nelson Morgan, John Wiley & Sons, 2001

Also Published As

Publication number Publication date
US8756062B2 (en) 2014-06-17
CN102543077A (zh) 2012-07-04
DE102011120315B4 (de) 2013-02-28
CN102543077B (zh) 2014-12-17
US20120150541A1 (en) 2012-06-14

Similar Documents

Publication Publication Date Title
DE102011120315B4 (de) Anpassung männlicher Akustikmodelle auf der Basis von sprachunabhängigen weiblichen Sprechdaten
DE102008034143B4 (de) Verfahren zur Umgebungsgeräuscheinkopplung für eine Spracherkennung in einem Serienfahrzeug
DE102018128006B4 (de) Verfahren zum erzeugen von ausgaben natürlichsprachlicher generierung basierend auf dem benutzersprachstil
US8639508B2 (en) User-specific confidence thresholds for speech recognition
DE102019105269B4 (de) Verfahren zur spracherkennung mit spracherkennungs-arbitrierungslogik
US8296145B2 (en) Voice dialing using a rejection reference
DE102012220796B4 (de) Verfahren zum Initiieren eines Freisprechkonferenzgesprächs
DE102018103188B4 (de) Verfahren zur spracherkennung in einem fahrzeug zur verbesserung der aufgabenerledigung
DE102017102392A1 (de) Automatische spracherkennung bei stockender sprechweise
DE102019111529A1 (de) Automatisierte spracherkennung unter verwendung einer dynamisch einstellbaren hörzeitüberschreitung
US8560313B2 (en) Transient noise rejection for speech recognition
US7676363B2 (en) Automated speech recognition using normalized in-vehicle speech
DE102012217160B4 (de) Verfahren zum Korrigieren unverständlicher synthetischer Sprache
DE102008062542A1 (de) Fahrzeuginterne die Umstände berücksichtigende Spracherkennung
US7983916B2 (en) Sampling rate independent speech recognition
US8762151B2 (en) Speech recognition for premature enunciation
DE102017121059A1 (de) Identifikation und erzeugung von bevorzugten emoji
US9564120B2 (en) Speech adaptation in speech synthesis
US20080126100A1 (en) Correcting substitution errors during automatic speech recognition
DE102017121054A1 (de) Remote-spracherkennung in einem fahrzeug
DE102014111816A1 (de) Fahrzeugtelematikeinheit und Verfahren zum Bedienen dieser
US8438030B2 (en) Automated distortion classification
DE102018125966A1 (de) System und verfahren zur erfassung von stichworten in einer unterhaltung
DE102010034433B4 (de) Verfahren zum Erkennen von Sprache
DE102015106280B4 (de) Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final

Effective date: 20130529

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee