DE102012217160B4

DE102012217160B4 - Verfahren zum Korrigieren unverständlicher synthetischer Sprache

Info

Publication number: DE102012217160B4
Application number: DE102012217160.6A
Authority: DE
Inventors: Gaurav Talwar; Rathinavelu Chengalvarayan
Original assignee: GM Global Technology Operations LLC; General Motors LLC
Current assignee: GM Global Technology Operations LLC; General Motors LLC
Priority date: 2011-09-27
Filing date: 2012-09-24
Publication date: 2023-03-23
Anticipated expiration: 2032-09-25
Also published as: US9082414B2; DE102012217160A1; US20130080173A1; CN103151037A

Abstract

Verfahren für die Sprachsynthese, wobei das Verfahren die folgenden Schritte umfasst:(a) Empfangen einer Texteingabe in ein Text-zu-Sprache-System (210);(b) Verarbeiten der Texteingabe zu synthetischer Sprache unter Verwendung eines Prozessors (214) des Systems (210);(c) Feststellen, dass die synthetische Sprache unverständlich ist;(d) erneutes Verarbeiten der Texteingabe zu nachfolgender synthetischer Sprache, um die unverständliche synthetische Sprache zu korrigieren; und(e) Ausgeben der nachfolgenden synthetischen Sprache über einen Lautsprecher (230) an einen Anwender, wobei der Schritt (c) enthält:(c1) Vorhersagen der Verständlichkeit der synthetischen Sprache; und(c2) Bestimmen, dass die vorhergesagte Verständlichkeit aus Schritt (c1) niedriger als ein Minimumschwellenwert ist, und wobei das Verfahren zwischen den Schritten (c) und (d) ferner umfasst:(f) Anpassen von in Verbindung mit dem Schritt (d) verwendeten Akustikmodellen (226),wobei eine Beziehung zwischen zwei oder mehr prosodischen Attributen der Akustikmodelle (226) und der Verständlichkeit definiert wird,wobei ein Punktestand der Verständlichkeit als eine Summe gewichteter prosodischer Attribute berechnet wird undwobei die Akustikmodelle (226) unter Verwendung einer gaußschen Wahrscheinlichkeitsdichtefunktion, welche die prosodischen Attribute repräsentiert, geschätzt werden und Gewichte der Attribute geändert werden, so dass ein gaußsches Mischverteilungsmodell geschätzt wird, bis ein wahrscheinlichstes Modell (226) erhalten wird, das zu einem Punktestand der Verständlichkeit führt, der größer als der Minimumschwellenwert ist.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich allgemein auf die Sprachsignalverarbeitung und insbesondere auf die Sprachsynthese.
HINTERGRUND
Die Sprachsynthese ist die Erzeugung von Sprache aus Text mit künstlichen Mitteln. Zum Beispiel synthetisieren Text-zu-Sprache-Systeme (TTS-Systeme) Sprache aus Text, um eine Alternative zu herkömmlichen Computer-zu-Mensch-Sichtausgabevorrichtungen wie Computermonitoren oder -anzeigen zu schaffen. Ein bei der TTS-Synthese festgestelltes Problem ist, das synthetische Sprache schlechte prosodische Eigenschaften wie etwa Intonation, Aussprache, Akzent, Sprachgeschwindigkeit, Ton und Natürlichkeit aufweisen kann. Dementsprechend kann diese schlechte Prosodie einen TTS-Anwender verwirren und zu unvollständiger Interaktion mit dem Anwender führen.
In der US 2002 / 0 184 030 A1 ist ein Verfahren zur Sprachsynthese beschrieben, bei dem eine Texteingabe mittels eines Prozessors zu synthetischer Sprache verarbeitet wird. Vor der Ausgabe der synthetischen Sprache wird diese jedoch bezüglich der Verständlichkeit bewertet und gegebenenfalls korrigiert, falls die Bewertung der synthetischen Sprache unterhalb eines Schwellenwerts liegt.
Die US 2002 / 0 128 838 A1 beschreibt ein ähnliches Verfahren, bei dem zusätzlich Hintergrundgeräusche bei der Bewertung der Verständlichkeit berücksichtigt werden.
Eine Aufgabe der Erfindung besteht darin, ein Verfahren zur Sprachsynthese zu schaffen, das eine bezüglich der Verständlichkeit optimierte synthetische Sprache ausgibt.
ZUSAMMENFASSUNG
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst.
Figurenliste
Im Folgenden werden eine oder mehrere bevorzugte Ausführungsformen der Erfindung in Verbindung mit den beigefügten Zeichnungen beschrieben, wobei gleiche Bezeichnungen gleiche Elemente bezeichnen und wobei:

1 ein Blockschaltplan ist, der eine beispielhafte Ausführungsform eines Kommunikationssystems zeigt, das das hier offenbarte Verfahren nutzen kann;
2 ein Blockschaltplan ist, der eine beispielhafte Ausführungsform eines Text-zu-Sprache-Systems (TTS-Systems) darstellt, das mit dem System aus 1 und zum Implementieren beispielhafter Verfahren der Sprachsynthese und/oder zum Verbessern der Spracherkennung verwendet werden kann;
3 ein Ablaufplan ist, der eine beispielhafte Ausführungsform eines Verfahrens der Sprachsynthese darstellt, das von dem Kommunikationssystem aus 1 und von dem TTS-System aus 2 ausgeführt werden kann; und
4 ein Ablaufplan ist, der eine andere beispielhafte Ausführungsform eines Verfahrens der Sprachsynthese darstellt, das von dem Kommunikationssystem aus 1 und von dem TTS-System aus 2 ausgeführt werden kann.

AUSFÜHRLICHE BESCHREIBUNG DER DARGESTELLTEN AUSFÜHRUNGSFORM(EN)
Die folgende Beschreibung beschreibt ein beispielhaftes Kommunikationssystem, ein beispielhaftes Text-zu-Sprache-System (TTS-System), das mit dem Kommunikationssystem verwendet werden kann, und eines oder mehrere beispielhafte Verfahren, die mit einem oder mit beiden der oben erwähnten Systeme verwendet werden können. Die im Folgenden beschriebenen Verfahren können von einer Fahrzeugtelematikeinheit (VTU) als Teil zum Synthetisieren von Sprache zur Ausgabe an einen Anwender der VTU verwendet werden. Obwohl die im Folgenden beschriebenen Verfahren derart sind, dass sie für eine VTU in einem Fahrzeugkontext während der Programmausführung oder -laufzeit implementiert werden könnten, wird gewürdigt werden, dass sie in irgendeinem Typ eines TTS-Systems oder in anderen Typen von TTS-Systemen und für andere Kontexte als den Fahrzeugkontext nutzbar sein könnten.
Kommunikationssystem
In 1 ist eine beispielhafte Betriebsumgebung gezeigt, die ein mobiles Fahrzeugkommunikationssystem 10 umfasst und die zur Implementierung des hier offenbarten Verfahrens verwendet werden kann. Das Kommunikationssystem 10 enthält allgemein ein Fahrzeug 12, eines oder mehrere drahtlose Trägersysteme 14, ein Kommunikationslandnetz 16, einen Computer 18 und ein Callcenter 20. Es ist festzustellen, dass das offenbarte Verfahren mit irgendeiner Anzahl verschiedener Systeme verwendet werden kann und nicht spezifisch auf die hier gezeigte Betriebsumgebung beschränkt ist. Außerdem sind die Architektur, die Konstruktion, die Einrichtung und der Betrieb des Systems 10 und seiner einzelnen Komponenten im Gebiet allgemein bekannt. Somit bieten die folgenden Absätze einfach eine kurze Übersicht über ein solches beispielhaftes System 10; allerdings könnten andere Systeme, die hier nicht gezeigt sind, das offenbarte Verfahren ebenfalls nutzen.
Das Fahrzeug 12 ist in der dargestellten Ausführungsform als ein PKW gezeigt, wobei aber gewürdigt werden sollte, dass irgendwelche anderen Fahrzeuge einschließlich Motorrädern, LKWs, Geländefahrzeugen (SUVs), Wohnmobilen (RVs), Seeschiffen, Flugzeugen usw. ebenfalls verwendet werden können. Ein Teil der Fahrzeugelektronik 28 ist allgemein in 1 gezeigt und enthält eine Telematikeinheit 30, ein Mikrofon 32, einen oder mehrere Druckknöpfe oder andere Steuereingabeeinrichtungen 34, ein Audiosystem 36, eine Sichtanzeige 38 und ein GPS-Modul 40 sowie eine Anzahl von Fahrzeugsystemmodulen (VSMs) 42. Einige dieser Vorrichtungen wie etwa z. B. das Mikrofon 32 und der Druckknopf (die Druckknöpfe) 34 können direkt mit der Telematikeinheit verbunden sein, während andere wie etwa ein Kommunikationsbus 44 oder ein Unterhaltungsbus 46 unter Verwendung einer oder mehrerer Netzverbindungen indirekt verbunden sind. Beispiele geeigneter Fahrzeugverbindungen enthalten ein Controller Area Network (CAN), einen Media Oriented System Transfer (MOST), ein Local Interconnection Network (LIN), ein Local Area Network (LAN) und andere geeignete Verbindungen wie etwa Ethernet oder andere, die bekannten ISO-, SAE- und IEEE-Normen und -Spezifikationen, um nur einige zu nennen, entsprechen.
Die Telematikeinheit 30 kann eine durch einen OEM eingebaute (eingebettete) Vorrichtung oder eine Nachrüstvorrichtung sein, die drahtlose Sprach- und/oder Datenkommunikationen über ein drahtloses Trägersystem 14 und über drahtlose Vernetzung ermöglicht, so dass das Fahrzeug mit dem Callcenter 20, mit anderen telematikfähigen Vorrichtungen oder mit einer anderen Entität oder Vorrichtung kommunizieren kann. Vorzugsweise verwendet die Telematikeinheit Funkübertragungen, um einen Kommunikationskanal (einen Sprachkanal und/oder einen Datenkanal) mit dem drahtlosen Trägersystem 14 aufzubauen, so dass Sprach- und/oder Datenübertragungen über den Kanal gesendet und empfangen werden können. Durch Bereitstellung sowohl einer Sprach- als auch einer Datenkommunikation ermöglicht die Telematikeinheit 30, dass das Fahrzeug eine Anzahl verschiedener Dienste einschließlich jener, die sich auf Navigation, Telefonie, Nothilfe, Diagnose, Infotainment usw. beziehen, anbietet. Daten können entweder über eine Datenverbindung wie etwa eine Paketdatenübertragung über einen Datenkanal oder über einen Sprachkanal unter Verwendung im Gebiet bekannter Verfahren gesendet werden. Für kombinierte Dienste, die sowohl die Sprachkommunikation (z. B. mit einem Live-Berater oder mit einer Sprachdialogeinheit in dem Callcenter 20) als auch die Datenkommunikation (z. B. zur Bereitstellung von GPS-Ortsdaten oder Fahrzeugdiagnosedaten für das Callcenter 20) umfassen, kann das System einen einzelnen Anruf über einen Sprachkanal nutzen und bei Bedarf zwischen Sprach- und Datenübertragung über den Sprachkanal umschalten, wobei dies unter Verwendung dem Fachmann auf dem Gebiet bekannter Techniken erfolgen kann.
In Übereinstimmung mit einer Ausführungsform nutzt die Telematikeinheit 30 die Funkzellenkommunikation entweder in Übereinstimmung mit der GSM- oder mit der CDMA-Norm und enthält somit einen Standardmobilkommunikationschipsatz 50 für Sprachkommunikationen für Freihandanruf, ein drahtloses Modem für die Datenübertragung, eine elektronische Verarbeitungsvorrichtung 52, eine oder mehrere digitale Speichervorrichtungen 54 und eine duale Antenne 56. Es wird gewürdigt werden, dass das Modem entweder über Software, die in der Telematikeinheit gespeichert ist und durch den Prozessor 52 ausgeführt wird, implementiert werden kann oder eine getrennte Hardwarekomponente sein kann, die sich innerhalb oder außerhalb der Telematikeinheit 30 befindet. Das Modem kann unter Verwendung irgendeiner Anzahl verschiedener Normen oder Protokolle wie etwa EVDO, CDMA, GPRS und EDGE arbeiten. Die drahtlose Vernetzung zwischen dem Fahrzeug und anderen vernetzten Vorrichtungen kann ebenfalls unter Verwendung der Telematikeinheit 30 ausgeführt werden. Zu diesem Zweck kann die Telematikeinheit 30 zum drahtlosen Kommunizieren in Übereinstimmung mit einem oder mit mehreren drahtlosen Protokollen wie etwa IEEE-802.11-Protokollen oder Wi-MAX oder Bluetooth konfiguriert werden. Wenn die Telematikeinheit für die paketvermittelte Datenkommunikation wie etwa TCP/IP verwendet wird, kann sie mit einer statischen IP-Adresse konfiguriert werden oder kann sie zum automatischen Empfangen einer zugewiesenen IP-Adresse von einer anderen Vorrichtung in dem Netz wie etwa von einem Router oder von einem Netzadressenserver eingerichtet werden.
Der Prozessor 52 kann irgendein Typ einer zum Verarbeiten elektronischer Anweisungen fähigen Vorrichtung einschließlich Mikroprozessoren, Mikrocontrollern, Host-Prozessoren, Controllern, Fahrzeugkommunikationsprozessoren und anwendungsspezifischen integrierten Schaltungen (ASICs) sein. Er kann ein dedizierter Prozessor sein, der nur für die Telematikeinheit 30 verwendet wird, oder er kann mit anderen Fahrzeugsystemen gemeinsam genutzt sein. Der Prozessor 52 führt verschiedene Typen digital gespeicherter Anweisungen wie etwa im Speicher 54 gespeicherter Software- oder Firmwareprogramme aus, die ermöglichen, dass die Telematikeinheit eine breite Vielfalt von Diensten bereitstellt. Zum Beispiel kann der Prozessor 52 Programme oder Programmdaten zum Ausführen wenigstens eines Teils des hier offenbarten Verfahrens ausführen.
Die Telematikeinheit 30 kann zum Bereitstellen eines verschiedenen Bereichs von Fahrzeugdiensten verwendet werden, die die drahtlose Kommunikation zu und/oder von dem Fahrzeug umfassen. Diese Dienste enthalten: Turn-by-Turn-Anweisungen und andere navigationsbezogene Dienste, die zusammen mit dem GPS-gestützten Fahrzeugnavigationsmodul 40 bereitgestellt werden; eine Airbageinsatzbenachrichtigung und andere not- oder pannenhilfebezogene Dienste, die zusammen mit einem oder mehreren Kollisionssensor-Schnittstellenmodulen wie etwa einem Karosseriesteuermodul (nicht gezeigt) bereitgestellt werden; eine Diagnoseberichterstattung unter Verwendung eines oder mehrerer Diagnosemodule; und infotainmentbezogene Dienste, bei denen Musik, Webseiten, Filme, Fernsehprogramme, Videospiele und/oder andere Informationen durch ein Infotainmentmodul (nicht gezeigt) heruntergeladen und für die gegenwärtige oder spätere Wiedergabe gespeichert werden. Die oben aufgeführten Dienste sind keinesfalls eine ausschließliche Liste aller Fähigkeiten der Telematikeinheit 30, sondern sind einfach eine Aufzählung einiger der Dienste, die die Telematikeinheit anbieten kann. Darüber hinaus ist festzustellen, dass wenigstens einige der obenerwähnten Module in Form von innerhalb oder außerhalb der Telematikeinheit 30 gesicherter Softwareanweisungen implementiert werden könnten, dass sie innerhalb oder außerhalb der Telematikeinheit 30 liegende Hardwarekomponenten sein könnten oder dass sie miteinander oder mit anderen Systemen, die überall in dem Fahrzeug liegen, integriert und/oder gemeinsam genutzt sein können, um nur einige Möglichkeiten zu nennen. Falls die Module als VSMs 42 implementiert sind, die sich außerhalb der Telematikeinheit 30 befinden, könnten sie den Fahrzeugbus 44 nutzen, um Daten und Befehle mit der Telematikeinheit auszutauschen.
Das GPS-Modul 40 empfängt Funksignale von einer Konstellation 60 von GPS-Satelliten. Aus diesen Signalen kann das Modul 40 eine Fahrzeugposition bestimmen, die zur Bereitstellung von Navigationsdiensten und anderen positionsbezogenen Diensten für den Fahrzeugfahrer verwendet wird. Die Navigationsinformationen können auf der Anzeige 38 (oder auf einer anderen Anzeige innerhalb des Fahrzeugs) dargestellt werden oder können verbal dargestellt werden, wie es beim Liefern einer Turn-by-Turn-Navigation erfolgt. Die Navigationsdienste können unter Verwendung eines dedizierten fahrzeuginternen Navigationsmoduls (das Teil des GPS-Moduls 40 sein kann) bereitgestellt werden oder einige oder alle Navigationsdienste können über die Telematikeinheit 30 erfolgen, wobei die Positionsinformationen an einen fernen Ort gesendet werden, um für das Fahrzeug Navigationskarten, Kartenkommentierungen (Sehenswürdigkeiten, Restaurants usw.) Streckenberechnungen und dergleichen bereitzustellen. Die Positionsinformationen können zu anderen Zwecken wie etwa für das Wagenparkmanagement an das Callcenter 20 oder an ein anderes fernes Computersystem wie etwa an einen Computer 18 geliefert werden. Außerdem können von dem Callcenter 20 neue oder aktualisierte Kartendaten über die Telematikeinheit 30 in das GPS-Modul 40 heruntergeladen werden.
Außer dem Audiosystem 36 und dem GPS-Modul 40 kann das Fahrzeug 12 andere Fahrzeugsystemmodule (VSMs) 42 in Form elektronischer Hardwarekomponenten, die sich überall in dem Fahrzeug befinden und die üblicherweise eine Eingabe von einem oder von mehreren Sensoren empfangen und die erfasste Eingabe zum Ausführen von Diagnose-, Überwachungs-, Steuerungs-, Berichterstattungs- und/oder anderen Funktionen verwenden, enthalten. Jedes der VSMs 42 ist vorzugsweise durch den Kommunikationsbus 44 mit anderen VSMs sowie mit der Telematikeinheit 30 verbunden und kann zum Ausführen von Fahrzeugsystem- und Fahrzeugteilsystem-Diagnosetests programmiert sein. Als Beispiele kann ein VSM 42 ein Motorsteuermodul (ECM) sein, das verschiedene Aspekte des Motorbetriebs wie etwa Kraftstoffzündung und Kraftstoffzeiteinstellung steuert, kann ein anderes VSM 42 ein Antriebsstrangsteuermodul sein, das den Betrieb einer oder mehrerer Komponenten des Fahrzeugantriebsstrangs reguliert, und kann ein anderes VSM 42 ein Karosseriesteuermodul sein, das verschiedene elektrische Komponenten, die sich überall in dem Fahrzeug befinden, wie die Fahrzeugzentralverriegelung und -scheinwerfer, reguliert. In Übereinstimmung mit einer Ausführungsform ist das Motorsteuermodul mit Borddiagnosemerkmalen (OBD-Merkmalen) ausgestattet, die unzählige Echtzeitdaten bereitstellen etwa jene, die von verschiedenen Fahrzeugsensoren einschließlich Fahrzeugemissionssensoren empfangen werden, und die eine genormte Reihe von Diagnosefehlercodes (DTCs) bereitstellen, die ermöglichen, dass ein Techniker Störungen innerhalb des Fahrzeugs schnell identifiziert und behebt. Wie der Fachmann auf dem Gebiet würdigen wird, sind die obenerwähnten VSMs nur Beispiele einiger der Module, die in dem Fahrzeug 12 verwendet werden können, da zahlreiche andere ebenfalls möglich sind.
Außerdem enthält die Fahrzeugelektronik 28 eine Anzahl von Fahrzeuganwenderschnittstellen, die für die Fahrzeuginsassen Mittel zum Liefern und/oder Empfangen von Informationen bereitstellen, einschließlich eines Mikrofons 32, eines oder mehrerer Druckknöpfe 34, eines Audiosystems 36 und einer Sichtanzeige 38. Wie der Begriff ‚Fahrzeuganwenderschnittstelle‘ hier verwendet ist, enthält er umfassend irgendeine geeignete Form einer elektronischen Vorrichtung einschließlich sowohl Hardware- als auch Softwarekomponenten, die sich in dem Fahrzeug befinden und die ermöglicht, dass ein Fahrzeuganwender mit oder über eine Komponente des Fahrzeugs kommuniziert. Das Mikrofon 32 liefert eine Audioeingabe an die Telematikeinheit, um zu ermöglichen, dass der Fahrer oder ein anderer Insasse über das drahtlose Trägersystem 14 Sprachbefehle liefert und Freihandanrufe ausführt. Zu diesem Zweck kann es mit einer automatisierten Bordsprachverarbeitungseinheit verbunden werden, die im Gebiet bekannte Mensch-Maschine-Schnittstellentechnologie (HMI-Technologie) nutzt. Der eine oder die mehreren Druckknöpfe 34 ermöglichen eine manuelle Anwendereingabe in die Telematikeinheit 30, um drahtlose Telefonanrufe zu initiieren und andere Daten, eine Antwort oder eine Steuereingabe bereitzustellen. Es können getrennte Druckknöpfe verwendet werden, um gegenüber regulären Dienstunterstützungsanrufen an das Callcenter 20 Notanrufe zu initiieren. Das Audiosystem 36 stellt eine Audioausgabe für einen Fahrzeuginsassen bereit und kann ein dediziertes selbständiges System oder Teil des primären Fahrzeugaudiosystems sein. In Übereinstimmung mit der hier gezeigten besonderen Ausführungsform ist das Audiosystem 36 sowohl mit dem Fahrzeugbus 44 als auch mit dem Unterhaltungsbus 46 funktional gekoppelt und kann AM-, FM- und Satellitenradio-, CD-, DVD- und andere Multimediafunktionalität bereitstellen. Diese Funktionalität kann zusammen mit dem oben beschriebenen Infotainmentmodul oder unabhängig von ihm bereitgestellt werden. Die Sichtanzeige 38 ist vorzugsweise eine Graphikanzeige wie etwa ein Berührungsbildschirm auf dem Instrumentenbrett oder eine Headup-Anzeige, die an der Windschutzscheibe reflektiert wird, und kann verwendet werden, um eine Vielzahl von Eingabe- und Ausgabefunktionen bereitzustellen. Da die Schnittstellen aus 1 nur Beispiele einer besonderen Implementierung sind, können ebenfalls verschiedene andere Fahrzeuganwenderschnittstellen genutzt werden.
Das drahtlose Trägersystem 14 ist vorzugsweise ein Mobiltelefonsystem, das mehrere Funkzellentürme 70 (wobei nur einer gezeigt ist), eine oder mehrere Mobilvermittlungsstellen (MSCs) 72 sowie irgendwelche anderen Netzkomponenten, die zum Verbinden des drahtlosen Trägersystems 14 mit dem Landnetz 16 erforderlich sind, enthält. Jeder Funkzellenturm 70 enthält Sende- und Empfangsantennen und eine Basisstation, wobei die Basisstationen von verschiedenen Funkzellentürmen entweder direkt oder über eine Zwischenausrüstung wie etwa einen Basisstationscontroller mit der MSC 72 verbunden sind. Das Funkzellensystem 14 kann irgendeine geeignete Kommunikationstechnologie einschließlich z. B. analoger Technologien wie etwa AMPS oder der neueren digitalen Technologien wie etwa CDMA (z. B. CDMA2000) oder GSM/GPRS implementieren. Wie vom Fachmann auf dem Gebiet gewürdigt werden wird, sind verschiedene Funkzellenturm-/Basisstations-/MSC-Anordnungen möglich und könnten diese mit dem drahtlosen System 14 verwendet werden. Zum Beispiel könnten sich die Basisstation und der Funkzellenturm nebeneinander am selben Standort befinden oder könnten sie fern voneinander angeordnet sein, wobei jede Basisstation für einen einzelnen Funkzellenturm verantwortlich sein könnte oder eine einzelne Basisstation verschiedene Funkzellentürme bedienen könnte und verschiedene Basisstationen mit einer einzelnen MSC gekoppelt sein könnten, um nur einige der möglichen Anordnungen zu nennen.
Außer der Verwendung des drahtlosen Trägersystems 14 kann ein anderes drahtloses Trägersystem in Form der Satellitenkommunikation verwendet werden, um eine einfach gerichtete oder doppelt gerichtete Kommunikation mit dem Fahrzeug bereitzustellen. Dies kann unter Verwendung eines oder mehrerer Kommunikationssatelliten 62 und einer Aufwärtsstreckensendestation 64 erfolgen. Die einfach gerichtete Kommunikation können z. B. Satellitenfunkdienste sein, bei denen Programminhalt (Nachrichten, Musik usw.) von der sendenden Station 64 empfangen wird, zum Heraufladen gepackt wird und daraufhin an den Satelliten 62 gesendet wird, der die Programme an Abonnenten rundsendet. Die doppelt gerichtete Kommunikation können z. B. Satellitentelefoniedienste sein, die den Satelliten 62 zum Weiterleiten von Telefonkommunikationen zwischen dem Fahrzeug 12 und der Station 64 verwenden. Falls diese Satellitentelefonie verwendet wird, kann sie entweder zusätzlich zu dem drahtlosen Trägersystem 14 oder an seiner Stelle genutzt werden.
Das Landnetz 16 kann ein herkömmliches landgestütztes Telekommunikationsnetz sein, das mit einem oder mehreren Landleitungstelefonen verbunden ist und das drahtlose Trägersystem 14 mit dem Callcenter 20 verbindet. Das Landnetz 16 kann z. B. ein öffentliches Fernsprechwählnetz (PSTN) wie etwa das zur Bereitstellung einer Festnetztelefonie, paketvermittelter Datenkommunikationen und der Internet-Infrastruktur verwendete enthalten. Eines oder mehrere Segmente des Landnetzes 16 könnten unter Verwendung eines verdrahteten Standardnetzes, eines Glasfasernetzes oder eines anderen optischen Netzes, eines Kabelnetzes, von Starkstromleitungen, anderer drahtloser Netze wie etwa drahtloser Local Area Networks (WLANs) oder Netze, die einen drahtlosen Breitbandzugang (BWA) bereitstellen, oder irgendeiner Kombination davon implementiert sein. Darüber hinaus braucht das Callcenter 20 nicht über das Landnetz 16 verbunden zu sein, sondern könnte Ausrüstung für die drahtlose Telefonie enthalten, so dass es direkt mit einem drahtlosen Netz wie etwa mit dem drahtlosen Trägersystem 14 kommunizieren kann.
Der Computer 18 kann einer einer Anzahl von Computern sein, die über ein privates oder öffentliches Netz wie etwa das Internet zugänglich sind. Jeder solche Computer 18 kann für einen oder mehrere Zwecke wie etwa für einen Webserver, der durch das Fahrzeug über die Telematikeinheit 30 und den drahtlosen Träger 14 zugänglich ist, verwendet werden. Andere solche zugängliche Computer 18 können z. B. sein: ein Dienstleistungszentralencomputer, bei dem Diagnoseinformationen und andere Fahrzeugdaten von dem Fahrzeug über die Telematikeinheit 30 heraufgeladen werden können, ein Client-Computer, der von dem Fahrzeugbesitzer oder von einem anderen Abonnenten für solche Zwecke wie das Zugreifen auf oder Empfangen von Fahrzeugdaten oder das Einstellen oder Konfigurieren von Abonnentenpräferenzen oder zum Steuern von Fahrzeugfunktionen verwendet werden kann; oder ein Drittanbieterdatenkatalog, zu oder von dem Fahrzeugdaten oder andere Informationen, sei es durch Kommunizieren mit dem Fahrzeug 12 oder mit dem Callcenter 20 oder mit beiden, geliefert werden. Außerdem kann ein Computer 18 zum Bereitstellen einer Internetkonnektivität wie etwa von DNS-Diensten oder als ein Netzadressenserver, der DHCP oder ein anderes geeignetes Protokoll verwendet, um dem Fahrzeug 12 eine IP-Adresse zuzuweisen, verwendet werden.
Das Callcenter 20 ist dafür ausgelegt, für die Fahrzeugelektronik 28 eine Anzahl verschiedener System-Back-End-Funktionen bereitzustellen und enthält hier entsprechend der hier gezeigten beispielhaften Ausführungsform allgemein eine oder mehrere Vermittlungen 80, Server 82, Datenbanken 84, Live-Berater 86 sowie ein automatisiertes Sprachausgabesystem (VRS) 88, die alle im Gebiet bekannt sind. Diese verschiedenen Callcenterkomponenten sind vorzugsweise über ein verdrahtetes oder drahtloses Local Area Network 90 miteinander gekoppelt. Die Vermittlung 80, die eine Nebenstellenanlagenvermittlung (PBX-Vermittlung) sein kann, routet ankommende Signale in der Weise, dass Sprachübertragungen üblicherweise entweder durch das reguläre Telefon zu dem Live-Berater 86 oder unter Verwendung von VoIP zu dem automatisierten Sprachausgabesystem 88 gesendet werden. Wie durch die Strichlinie in 1 angegeben ist, kann das Live-Berater-Telefon ebenfalls VoIP verwenden. VoIP und eine andere Datenkommunikation über die Vermittlung 80 werden über ein zwischen die Vermittlung 80 und das Netz 90 geschaltetes Modem (nicht gezeigt) implementiert. Datenübertragungen werden über das Modem an den Server 82 und/oder an die Datenbank 84 übergeben. Die Datenbank 84 kann Kontoinformationen wie etwa Abonnentenauthentisierungsinformationen, Fahrzeugkennungen, Profildatensätze, Verhaltensmuster und andere relevante Abonnenteninformationen speichern. Die Datenübertragungen können ebenfalls durch drahtlose Systeme wie etwa 802.1 1x, GPRS und dergleichen durchgeführt werden. Obwohl die dargestellte Ausführungsform in der Weise beschrieben worden ist, dass sie zusammen mit einem bemannten Callcenter 20 unter Verwendung eines Live-Beraters 86 verwendet wird, wird gewürdigt werden, dass das Callcenter stattdessen das VRS 88 als einen automatisierten Berater nutzen kann oder dass eine Kombination aus VRS 88 und dem Live-Berater 86 verwendet werden kann.
Sprachsynthesesystem
Nunmehr übergehend zu 2 ist eine beispielhafte Architektur für ein Text-zu-Sprache-System (TTS-System) 210 gezeigt, das zum Ermöglichen des vorliegend offenbarten Verfahrens verwendet werden kann. Im Allgemeinen kann ein Anwender oder Fahrzeuginsasse mit einem TTS-System interagieren, um von einer Anwendung, z. B. von einer Fahrzeugnavigationsanweisung, einer Freihandanrufanwendung oder dergleichen, Anweisungen zu empfangen oder Menüaufforderungen anzuhören. Es gibt viele Abarten der TTS-Synthese einschließlich der Formanten-TTS-Synthese und der verkettenden TTS-Synthese. Die Formanten-TTS-Synthese gibt keine aufgezeichnete menschliche Sprache aus und gibt stattdessen computergenerierte Audiosignale aus, die dazu neigen, künstlich und roboterhaft zu klingen. In der verkettenden TTS-Synthese werden Segmente gespeicherter menschlicher Sprache verkettet und ausgegeben, um eine fließendere, natürlicher klingende Sprache zu erzeugen. Allgemein extrahiert ein verkettendes TTS-System Ausgangswörter oder Kennungen von einer Textquelle, setzt die Ausgabe in geeignete Spracheinheiten um, wählt gespeicherte Spracheinheiten, die den Spracheinheiten am besten entsprechen, aus, setzt die ausgewählten Spracheinheiten in Audiosignale um und gibt die Audiosignale als hörbare Sprache zur Kopplung mit einem Anwender aus.
Wie im Hintergrundabschnitt beschrieben ist, sind dem Fachmann auf dem Gebiet TTS-Systeme allgemein bekannt. Allerdings veranschaulicht 2 ein Beispiel eines verbesserten TTS-Systems in Übereinstimmung mit der vorliegenden Offenbarung. In Übereinstimmung mit einer Ausführungsform kann ein Teil des Systems 210 oder das gesamte System 210 in der Telematikeinheit 30 aus 1 liegen und unter ihrer Verwendung verarbeitet werden. In Übereinstimmung mit einer alternativen beispielhaften Ausführungsform kann ein Teil des TTS-Systems 210 oder das gesamte TTS-System in Computerausrüstung an einem von dem Fahrzeug 12 fernen Ort, z. B. in dem Callcenter 20, liegen und unter ihrer Verwendung verarbeitet werden. Zum Beispiel können linguistische Modelle, Akustikmodelle und dergleichen in dem Speicher eines der Server 82 und/oder der Datenbanken 84 in dem Callcenter 20 gespeichert sein und für die fahrzeuginterne TTS-Verarbeitung an die Fahrzeugtelematikeinheit 30 übermittelt werden. Ähnlich kann TTS-Software unter Verwendung von Prozessoren eines der Server 82 in dem Callcenter 20 verarbeitet werden. Mit anderen Worten, das TTS-System 210 kann in der Telematikeinheit 30 liegen oder auf irgendeine gewünschte Weise über das Callcenter 20 und das Fahrzeug 12 verteilt sein.
Das System 210 kann eine oder mehrere Textquellen 212 und einen Speicher, z. B. den Telematikspeicher 54, zum Speichern von Text von der Textquelle 212 und zum Speichern von TTS-Software und -Daten enthalten. Außerdem kann das System 210 einen Prozessor, z. B. den Telematikprozessor 52, zum Verarbeiten des Texts und zum Fungieren mit dem Speicher und zusammen mit den folgenden Systemmodulen enthalten. Ein Präprozessor 214 empfängt Text von der Textquelle 212 und setzt den Text in geeignete Wörter oder dergleichen um. Eine Synthesemaschine 216 setzt die Ausgabe von dem Präprozessor 214 in geeignete Spracheinheiten wie Satzteile, Teilsätze und/oder Sätze um. Eine oder mehrere Sprachdatenbanken 218 speichern aufgezeichnete Sprache. Eine Einheitsauswahleinrichtung 220 wählt aus der Datenbank 218 Einheiten gesprochener Sprache, die der Ausgabe von der Synthesemaschine 216 am besten entsprechen, aus. Ein Postprozessor 222 ändert eine oder mehrere der ausgewählten Einheiten gespeicherter Sprache oder passt sie an. Eine oder mehrere linguistische Modelle 224 werden als Eingabe in die Synthesemaschine 216 verwendet und eines oder mehrere Akustikmodelle 226 werden als Eingabe in die Einheitsauswahleinrichtung 220 verwendet. Außerdem kann das System 210 eine Akustikschnittstelle 228 zum Umsetzen der ausgewählten Spracheinheiten in Audiosignale und einen Lautsprecher 230, z. B. des Telematikaudiosystems, zum Umsetzen der Audiosignale in hörbare Sprache enthalten. Ferner kann das System 210 ein Mikrofon, z. B. das Telematikmikrofon 32, und eine Akustikschnittstelle 232 zum Digitalisieren von Sprache in Akustikdaten zur Verwendung als Rückkopplung für den Postprozessor 222 enthalten.
Die Textquelle 212 kann in irgendeinem geeigneten Medium liegen und kann irgendwelchen geeigneten Inhalt enthalten. Die Textquelle 212 kann z. B. eines oder mehrere gescannte Dokumente, Textdateien oder Anwendungsdatendateien oder irgendwelche anderen geeigneten Computerdateien oder dergleichen sein. Die Textquelle 212 kann Wörter, Zahlen, Symbole und/oder Interpunktion, die zu Sprache zu synthetisieren sind und zur Ausgabe an den Textumsetzer 214, enthalten. Es kann irgendeine geeignete Menge und irgendein geeigneter Typ von Textquellen verwendet werden.
Der Präprozessor 214 setzt den Text von der Textquelle 212 in Wörter, Kennungen oder dergleichen um. Zum Beispiel kann der Präprozessor 214 die Zahlwörter, wo der Text in einem Zahlenformat ist, in entsprechende Wörter umsetzen. In einem anderen Beispiel, in dem der Text Interpunktion ist, die mit Großbuchstaben oder anderen Sonderzeichen wie Umlauten hervorgehoben ist, um einen geeigneten Akzent und eine geeignete Intonation, Unterstreichung oder Fettdruck anzugeben, kann der Präprozessor 214 diese in eine zur Verwendung durch die Synthesemaschine 216 und/oder durch die Einheitsauswahleinrichtung 220 geeignete Ausgabe umsetzen.
Die Synthesemaschine 216 empfängt die Ausgabe von dem Textumsetzer 214 und kann die Ausgabe in Spracheinheiten anordnen, die einen oder mehrere Sätze, Teilsätze, Satzteile, Wörter, Wortteile und/oder dergleichen enthalten können. Die Maschine 216 kann die linguistischen Modelle 224 zur Unterstützung bei der Koordinierung der wahrscheinlichsten Anordnungen der Spracheinheiten verwenden. Die linguistischen Modelle 224 stellen Regeln, Syntax und/oder Semantik beim Anordnen der Ausgabe von dem Textumsetzer 214 in Spracheinheiten bereit. Die Modelle 224 können außerdem eine Grundgesamtheit von Spracheinheiten definieren, die das System 210 zu irgendeinem gegebenen Zeitpunkt in irgendeiner gegebenen TTS-Betriebsart erwartet, und/oder können Regeln usw. bereitstellen, die regulieren, welche Typen von Spracheinheiten und/oder Prosodie auf andere Typen von Spracheinheiten und/oder Prosodie logisch folgen können, um natürlich klingende Sprache zu bilden. Die Spracheinheiten können phonetische Äquivalente wie Folgen von Phonemen oder dergleichen umfassen und können die Form von Phonem-HMMs aufweisen.
Die Sprachdatenbank 218 enthält im Voraus aufgezeichnete Sprache von einer oder von mehreren Personen. Die Sprache kann im Voraus aufgezeichnete Sätze, Teilsätze, Satzteile, Wörter, Teilwörter im Voraus aufgezeichneter Wörter und dergleichen enthalten. Außerdem kann die Sprachdatenbank 218 der im Voraus aufgezeichneten Sprache zugeordnete Daten, z. B. Metadaten zum Identifizieren aufgezeichneter Sprachsegmente zur Verwendung durch die Einheitsauswahleinrichtung 220, enthalten. Es können irgendein geeigneter Typ und irgendeine geeignete Menge von Sprachdatenbanken verwendet werden.
Die Einheitsauswahleinrichtung 220 vergleicht die Ausgabe von der Synthesemaschine 216 mit gespeicherten Sprachdaten und wählt gespeicherte Sprache, die der Synthesemaschinenausgabe am besten entspricht, aus. Die von der Einheitsauswahleinrichtung 220 ausgewählte Sprache kann im Voraus aufgezeichnete Sätze, Teilsätze, Satzteile, Wörter, Teilwörter im Voraus aufgezeichneter Wörter und/oder dergleichen enthalten. Die Auswahleinrichtung 220 kann die Akustikmodelle 226 zur Unterstützung beim Vergleich und bei der Auswahl der wahrscheinlichsten oder am besten entsprechenden Anwärter für gespeicherte Sprache verwenden. Die Akustikmodelle 226 können zusammen mit der Auswahleinrichtung 220 verwendet werden, um Daten der Synthesemaschinenausgabe und die gespeicherten Sprachdaten zu vergleichen und gegenüberzustellen, die Größe der Unterschiede oder Ähnlichkeiten zwischen ihnen zu beurteilen und schließlich die Entscheidungslogik zum Identifizieren am besten angepasster gespeicherter Sprachdaten und zum Ausgeben entsprechender aufgezeichneter Sprache zu verwenden.
Wie durch irgendeine von verschiedenen dem Fachmann auf dem Gebiet bekannten Techniken bestimmt wird, sind die am besten angepassten Sprachdaten im Allgemeinen jene, die eine minimale Unähnlichkeit mit der Ausgabe der Synthesemaschine 216 oder eine höchste Wahrscheinlichkeit, diese zu sein, besitzen. Diese Techniken können dynamische Time-Warping-Klassierer, Techniken künstlicher Intelligenz, neuronale Netze, Erkennungseinrichtungen freier Phoneme und/oder Anpassungseinrichtungen probabilistischer Muster wie etwa Hidden-Markov-Modell-Maschinen (HMM-Maschinen) enthalten. HMM-Maschinen sind dem Fachmann auf dem Gebiet zum Erzeugen mehrerer TTS-Modell-Anwärter oder -Hypothesen bekannt. Die Hypothesen werden schließlich beim Identifizieren und Auswählen jener gespeicherten Sprachdaten, die die am wahrscheinlichsten richtige Interpretation der Synthesemaschinenausgabe über Akustikmerkmalsanalyse der Sprache repräsentieren, betrachtet. Genauer erzeugt eine HMM-Maschine statistische Modelle in Form einer Liste „der N besten“ Spracheinheitshypothesen, geordnet in Übereinstimmung mit mittels HMM berechneten Vertrauenswerten oder Wahrscheinlichkeiten einer beobachteten Folge von Akustikdaten, die, z. B. durch die Anwendung des Bayes-Theorems, der einer oder der anderen Spracheinheit gegeben werden.
In einer Ausführungsform kann die Ausgabe von der Einheitsauswahleinrichtung 220 ohne Nachverarbeitung direkt an die Akustikschnittstelle 228 oder über den Postprozessor 222 übergeben werden. In einer anderen Ausführungsform kann der Postprozessor 222 die Ausgabe von der Einheitsauswahleinrichtung 220 zur Weiterverarbeitung empfangen.
Auf jeden Fall setzt die Akustikschnittstelle 228 digitale Audiodaten in analoge Audiosignale um. Die Schnittstelle 228 kann eine Digital-Analog-Umsetzungsvorrichtung, -Schaltungsanordnung und/oder -Software oder dergleichen sein. Der Lautsprecher 230 ist ein elektroakustischer Wandler, der die analogen Audiosignale in Sprache umsetzt, die von einem Anwender gehört und von dem Mikrofon 32 empfangen werden kann.
Verfahren
Nunmehr übergehend zu 3 ist ein Sprachsyntheseverfahren 300 gezeigt. Das Verfahren 300 aus 3 kann unter Verwendung geeigneter Programmierung des TTS-Systems 210 aus 2 innerhalb der Betriebsumgebung der Fahrzeugtelematikeinheit 30 sowie unter Verwendung geeigneter Hardware und Programmierung der anderen in 1 gezeigten Komponenten ausgeführt werden. Diese Merkmale irgendeiner bestimmten Implementierung werden dem Fachmann auf dem Gebiet auf der Grundlage der obigen Systembeschreibung und der Diskussion des im Folgenden beschriebenen Verfahrens zusammen mit den verbleibenden Figuren bekannt werden. Außerdem erkennt der Fachmann auf dem Gebiet, dass das Verfahren unter Verwendung anderer TTS-Systeme innerhalb anderer Betriebsumgebungen ausgeführt werden kann.
Allgemein enthält das Verfahren 300 das Empfangen einer Texteingabe in ein Text-zu-Sprache-System, das Verarbeiten der Texteingabe zu synthetischer Sprache, das Feststellen, dass die synthetische Sprache unverständlich ist, und das erneute Verarbeiten der Texteingabe zu nachfolgender synthetischer Sprache, die über einen Lautsprecher an einen Anwender ausgegeben wird. Die synthetische Sprache kann dadurch als unverständlich festgestellt werden, dass die Verständlichkeit der synthetischen Sprache vorhergesagt wird und dass bestimmt wird, dass die vorhergesagte Verständlichkeit niedriger als ein Minimumschwellenwert ist.
Wieder anhand von 3 beginnt das Verfahren 300 auf irgendeine geeignete Weise in Schritt 305. Zum Beispiel beginnt ein Fahrzeuganwender die Interaktion mit der Anwenderschnittstelle der Telematikeinheit 30, vorzugsweise durch Niederdrücken des Anwenderschnittstellen-Druckknopfs 34, um eine Sitzung zu beginnen, in der der Anwender während der Arbeit in einer TTS-Betriebsart ein TTS-Audiosignal von der Telematikeinheit 30 empfängt. In einer beispielhaften Ausführungsform kann das Verfahren 300 als Teil einer Navigationsstreckenführungsanwendung der Telematikeinheit 30 beginnen.
In Schritt 310 wird eine Texteingabe in einem TTS-System empfangen. Die Texteingabe kann z. B. eine Folge von Buchstaben, Zahlen, Symbolen oder dergleichen von der Textquelle 212 des TTS-Systems 210 enthalten.
In Schritt 315 wird die Texteingabe unter Verwendung eines Prozessors des Systems zu synthetischer Sprache verarbeitet. Zum Beispiel kann die Texteingabe zunächst vorverarbeitet werden, um den eingegebenen Text zu einer für die Sprachsynthese geeigneten Ausgabe umzusetzen. Zum Beispiel kann der Präprozessor 214 von der Textquelle 212 empfangenen Text in Wörter, Kennungen oder dergleichen zur Verwendung durch die Synthesemaschine 216 umsetzen. Zweitens kann die Ausgabe z. B. in Spracheinheiten angeordnet werden. Zum Beispiel kann die Synthesemaschine 216 die Ausgabe von dem Textumsetzer 214 empfangen und mit den linguistischen Modellen 224 die Ausgabe in Spracheinheiten anordnen, die einen oder mehrere Sätze, einen oder mehrere Teilsätze, einen oder mehrere Satzteile, eines oder mehrere Wörter, eines oder mehrere Teilwörter und/oder dergleichen enthalten können. Die Spracheinheiten können phonetische Äquivalente wie Folgen von Phonemen oder dergleichen umfassen. Drittens können die Spracheinheiten z. B. mit gespeicherten Sprachdaten verglichen werden und kann diejenige Sprache, die den Spracheinheiten am besten entspricht, als Sprache, die den Eingangstext repräsentiert, ausgewählt werden. Zum Beispiel kann die Einheitsauswahleinrichtung 220 die Akustikmodelle 228 verwenden, um die von der Synthesemaschine 216 ausgegebenen Spracheinheiten mit in der ersten Sprachdatenbank 218a gespeicherten Sprachdaten zu vergleichen und diejenige gespeicherte Sprache mit den zugeordneten Daten, die der Synthesemaschinenausgabe am besten entspricht, auszuwählen.
In Schritt 320 kann die Verständlichkeit der synthetischen Sprache aus Schritt 315 vorhergesagt werden. Es kann irgendeine von mehreren verfügbaren und gut bekannten Verfahren zum Vorhersagen der Sprachverständlichkeit verwendet werden. Zum Beispiel kann der Artikulationsindex (AI) verwendet werden, um die Verständlichkeit von Sprache in einer spezifischen Hörbedingung wie etwa in einem Raum mit einem gegebenen Hintergrundgeräuschpegel bei einem gegebenen Pegel der Sprachlautstärke vorherzusagen. Der AI ist eine Funktion des Amplitudenspektrums eines Sprachsignals und diejenige Menge dieses Spektrums, die einen Schwellenpegel des Hintergrundgeräuschs übersteigt. Der AI kann auf einer Skala von 0 bis 1 gemessen werden. In einem anderen Beispiel kann der Sprachübertragungsindex (STI) verwendet werden, um die Fähigkeit eines Kommunikationskanals wie eines Systems oder eines Raums zum Übermitteln in Sprache enthaltener Informationen auszudrücken, wobei er ein indirektes Maß für die Sprachverständlichkeit ist. Der STI kann auf einer Skala von 0 bis 1 gemessen werden. In einem weiteren Beispiel kann der Sprachstörungsindex (SIL) verwendet werden, um Geräusch in dem Frequenzbereich, in dem das menschliche Ohr die höchste Empfindlichkeit aufweist, zu charakterisieren, wobei er aus in Oktavenbändern gemessenen Schalldruckpegeln berechnet wird. Der SIL kann auf einer Skala von 600 bis 4800 Hz gemessen werden, die mehrere Oktavenbänder wie 600-1200 Hz, 1200-2400 Hz und 2400-4800 Hz enthalten kann. Außerdem kann der SIL Durchschnittspegel der Oktavenbänder enthalten.
Die Sprachverständlichkeit kann auf irgendeine geeignete Weise unter Verwendung eines oder mehrerer der obenerwähnten Indizes vorhergesagt werden. Zum Beispiel können zwei oder mehr der Indizes verwendet werden, wobei jeder gemittelt oder auf irgendeine geeignete Weise gewichtet werden kann, um z. B. eine höhere Vorhersagefähigkeit eines Index gegenüber einem anderen zu widerspiegeln. Genauer können zwei oder mehr der Indizes in einem Mehrfachregressionsmodell verwendet werden, das hinsichtlich subjektiver mittlerer Meinungspunktestände entwickelt werden kann, um geeignete Gewichtungen für das Modell zu berechnen. Beim Entwickeln des Modells können irgendwelche geeigneten Techniken einschließlich des minimalen mittleren quadratischen Fehlers, des kleinsten quadratischen Schätzwerts oder dergleichen verwendet werden.
In Schritt 325 kann bestimmt werden, ob die vorhergesagte Verständlichkeit aus Schritt 320 niedriger als ein Minimumschwellenwert ist. Nur zur Veranschaulichung kann der Minimumschwellenwert für den AI und/oder für den STI 0,8 auf der Skala von 0 bis 1 sein.
Falls in Schritt 325 bestimmt wird, dass die vorhergesagte Verständlichkeit nicht niedriger als der Minimumschwellenwert ist, kann die synthetische Sprache in Schritt 330 über einen Lautsprecher an einen Anwender ausgegeben werden. Zum Beispiel wird die Sprache an den Anwender ausgegeben, falls die vorhergesagte Verständlichkeit 0,9, höher als der veranschaulichende Minimumschwellenwert von 0,8, ist. Zum Beispiel kann die im Voraus aufgezeichnete Sprache von dem Anwender, die durch die Auswahleinrichtung 220 aus der Datenbank 218 ausgewählt wird, über die Schnittstelle 228 und den Lautsprecher 230 ausgegeben werden.
In Schritt 335 kann ein in Verbindung mit der Verarbeitung der Texteingabe verwendetes Modell angepasst werden, falls in Schritt 325 bestimmt wird, dass die vorhergesagte Verständlichkeit niedriger als der Minimumschwellenwert ist. Zum Beispiel kann das Modell angepasst werden, falls die vorhergesagte Verständlichkeit 0,6, kleiner als der veranschaulichende Minimumschwellenwert von 0,8, ist. Eines oder mehrere Akustikmodelle 226 können z. B. TTS-Hidden-Markov-Modelle (HMMs) enthalten, die auf irgendeine geeignete Weise angepasst werden können. Die Modelle können in der Telematikeinheit 30 oder in dem Callcenter 20 angepasst werden.
In einem stärker spezifischen Beispiel können die Modelle unter Verwendung eines linearen Maximum-Likelihood-Regressionsalgorithmus (MLLR-Algorithmus) angepasst werden, der verschiedene Varianten prosodischer Attribute einschließlich Intonation, Sprachgeschwindigkeit, spektrale Energie, Tonhöhe, Akzent, Aussprache und/oder dergleichen verwendet. Die Beziehung zwischen zwei oder mehr der verschiedenen Attribute und der Sprachverständlichkeit (SI) kann auf irgendeine geeignete Weise definiert werden. Zum Beispiel kann ein SI-Punktestand als eine Summe gewichteter prosodischer Attribute in Übereinstimmung mit einer Formel, z. B. SI = a . Akzent + b . Intonation + c . Sprachgeschwindigkeit, berechnet werden. Die Modelle können unter Verwendung einer gaußschen Wahrscheinlichkeitsdichtefunktion, die die Attribute repräsentiert, geschätzt werden, wobei die Gewichte a, b, c geändert werden können, bis ein wahrscheinlichstes Model erhalten wird, das zu einem SI führt, der höher als der Minimumschwellenwert ist. Unter Verwendung eines Maximum-Likelihood-Regressionsalgorithmus oder irgendeiner anderen geeigneten Technik können gaußsche Mischverteilungsmodelle und -parameter geschätzt werden.
Jedes der MLLR-Merkmale kann auf irgendeine geeignete Weise gewichtet werden, um z. B. eine höhere Korrelation eines Merkmals gegenüber einem anderen zu widerspiegeln. In einer Ausführungsform können die Auswahl und die Gewichtung der Merkmale vor der Spracherkennungslaufzeit, während der Entwicklung des Spracherkennungsmodells, ausgeführt werden. In einer anderen Ausführungsform können die Auswahl und die Gewichtung der Merkmale während der Spracherkennungslaufzeit ausgeführt werden. Die Gewichtung kann unter Verwendung eines iterativen Algorithmus des minimalen mittleren quadratischen Fehlers (MMSE), eines in einer Entwicklungsphase trainierten neuronalen Netzes oder dergleichen ausgeführt werden.
In Schritt 340 kann die Texteingabe erneut zu nachfolgender synthetischer Sprache verarbeitet werden, um die unverständliche synthetische Sprache zu korrigieren. Zum Beispiel kann das in Schritt 335 angepasste Modell verwendet werden, um die Texteingabe in der Weise erneut zu verarbeiten, dass die nachfolgende synthetische Sprache verständlich ist. Wie hier zuvor in Bezug auf das TTS-System 210 diskutiert wurde, kann der Postprozessor 222 verwendet werden, um gespeicherte Sprache auf irgendeine geeignete Weise zu ändern. Wie in Strichlinien gezeigt ist, können die angepassten TTS-HMMs oberstromig rückgekoppelt werden, um die Auswahl nachfolgender Sprache zu verbessern.
In Schritt 345 kann die Verständlichkeit der nachfolgenden synthetischen Sprache wie z. B. oben in Bezug auf Schritt 320 diskutiert vorhergesagt werden.
In Schritt 350 kann bestimmt werden, ob die vorhergesagte Verständlichkeit aus Schritt 345 niedriger als ein Minimumschwellenwert ist. Wenn das nicht der Fall ist, geht das Verfahren zu Schritt 330 über. Wenn es aber so ist, wird das Verfahren zu Schritt 335 zurückgeschleift.
In Schritt 355 kann das Verfahren auf irgendeine geeignete Weise enden.
Nunmehr übergehend zu 4 ist ein weiteres Sprachsyntheseverfahren 400 gezeigt. Das Verfahren 400 aus 4 kann unter Verwendung geeigneter Programmierung des TTS-Systems 210 aus 2 innerhalb der Betriebsumgebung der Fahrzeugtelematikeinheit 30 sowie unter Verwendung geeigneter Hardware und Programmierung der anderen in 1 gezeigten Komponenten ausgeführt werden. Diese Merkmale irgendeiner bestimmten Implementierung werden dem Fachmann auf dem Gebiet auf der Grundlage der obigen Systembeschreibung und der folgenden Diskussion des Verfahrens im Zusammenhang mit den verbleibenden Figuren bekannt werden. Außerdem wird der Fachmann auf dem Gebiet erkennen, dass das Verfahren unter Verwendung anderer TTS-Systeme innerhalb anderer Betriebsumgebungen ausgeführt werden kann.
Allgemein enthält das Verfahren 400 das Empfangen einer Texteingabe in einem Text-zu-Sprache-System, das Verarbeiten der Texteingabe zu synthetischer Sprache, das Feststellen der synthetischen Sprache als unverständlich und das erneute Verarbeiten der Texteingabe zu nachfolgender synthetischer Sprache, die über einen Lautsprecher an einen Anwender ausgegeben wird. Die synthetische Sprache kann dadurch als unverständlich festgestellt werden, dass die synthetische Sprache über den Lautsprecher an den Anwender ausgegeben wird und von dem Anwender eine Angabe empfangen wird, dass die synthetische Sprache nicht verständlich ist.
Wieder anhand von 4 beginnt das Verfahren 400, wie z. B. oben in Bezug auf Schritt 305 diskutiert ist, auf irgendeine geeignete Weise in Schritt 405.
In Schritt 410 wird, wie z. B. oben in Bezug auf Schritt 310 diskutiert ist, eine Texteingabe in ein TTS-System empfangen.
In Schritt 415 wird die Texteingabe, wie z. B. oben in Bezug auf Schritt 315 diskutiert ist, unter Verwendung eines Prozessors des Systems zu synthetischer Sprache verarbeitet.
In Schritt 420 wird die synthetische Sprache, wie z. B. oben in Bezug auf Schritt 350 diskutiert ist, über einen Lautsprecher an den Anwender ausgegeben.
In Schritt 425 kann von dem Anwender eine Angabe empfangen werden, dass die synthetische Sprache nicht verständlich ist. Zum Beispiel kann der Anwender irgendeinen geeigneten Hinweis einschließlich „Wie bitte?“ oder „Was?“ oder „Wiederholen Sie bitte.“ oder dergleichen äußern. Die Angabe kann von dem Telematikmikrofon 32 der Telematikeinheit 30 empfangen werden und zur Erkennung der Angabe auf irgendeine geeignete Weise an ein Spracherkennungssystem übergeben werden. Wie die US-Patentanmeldungsveröffentlichung US 2011 / 0 144 987 A1 belegt, die auf den Anmelder übertragen ist und hier in ihrer Gesamtheit durch Bezugnahme mit aufgenommen ist, sind die Spracherkennung und verwandte Systeme im Gebiet gut bekannt. Danach kann die erkannte Angabe auf irgendeine geeignete Weise an das TTS-System 210 übergeben werden.
In Schritt 430 kann eine Kommunikationsfähigkeit des Anwenders identifiziert werden. Zum Beispiel kann identifiziert werden, dass der Anwender ein Anfänger, ein Experte, ein Muttersprachler, ein Nicht-Muttersprachler oder dergleichen ist. Techniken zum Unterscheiden von Muttersprachlern von Nicht-Muttersprachlern und von Sprachanfängern von Sprachexperten sind dem Durchschnittsfachmann auf dem Gebiet gut bekannt. Allerdings kann eine bevorzugte Technik auf der Detektierung einer unterschiedlichen Aussprache von Wörtern in einem gegebenen Lexikon in dem ASR-System beruhen.
In Schritt 435 kann die Texteingabe erneut zu nachfolgender synthetischer Sprache verarbeitet werden, um die unverständliche synthetische Sprache zu korrigieren. In einem Beispiel kann die nachfolgende synthetische Sprache langsamer als die synthetische Sprache sein. Genauer kann eine der nachfolgenden synthetischen Sprache zugeordnete Sprachgeschwindigkeit niedriger als die der synthetischen Sprache zugeordnete sein. In einem weiteren Beispiel kann die nachfolgende synthetische Sprache leichter als die synthetische Sprache zu verstehen sein. Genauer kann die nachfolgende synthetische Sprache für mehr Kontext und zum besseren Verständnis wortreicher als die vorhergehende synthetische Sprache sein. Zum Beispiel kann eine synthetische Floskel wie etwa „Nummer bitte“ durch eine nachfolgende synthetische Sprache wie etwa „Bitte nennen Sie einen Kontaktnamen für die Person, die sie anzurufen versuchen.“ ersetzt sein.
In einer Ausführungsform wird die nachfolgende synthetische Sprache auf der Grundlage der in Schritt 430 identifizierten Kommunikationsfähigkeit des Anwenders erzeugt. Falls z. B. identifiziert wird, dass der Anwender ein Anfänger oder ein Nicht-Muttersprachler ist, kann die nachfolgende synthetische Sprache einfacher und/oder langsamer sein. In einem anderen Beispiel kann die nachfolgende synthetische Sprache eine Floskel enthalten, die sich von der vorhergehenden Sprachausgabe unterscheidet, falls identifiziert wird, dass der Anwender ein Anfänger oder ein Nicht-Muttersprachler ist.
In Schritt 440 kann die nachfolgende synthetische Sprache, wie z. B. oben in Bezug auf den Schritt 350 diskutiert wurde, über einen Lautsprecher an einen Anwender ausgegeben werden.
In Schritt 445 kann das Verfahren auf irgendeine geeignete Weise enden.
Das Verfahren oder Teile davon können in einem Computerprogrammprodukt implementiert werden, das Anweisungen enthält, die zur Verwendung durch einen oder mehrere Prozessoren eines oder mehrerer Computer auf einem computerlesbaren Medium getragen sind, um einen oder mehrere der Verfahrensschritte zu implementieren. Das Computerprogrammprodukt kann eines oder mehrere Softwareprogramme enthalten, die Programmanweisungen in Quellcode, in Objektcode, in ausführbarem Code oder in anderen Formaten; eines oder mehrere Firmwareprogramme; oder Dateien in der Hardwarebeschreibungssprache (HDL); und irgendwelche programmbezogenen Daten umfassen. Die Daten können Datenstrukturen, Nachschlagetabellen oder Daten in irgendeinem anderen geeigneten Format enthalten. Die Programmanweisungen können Programmmodule, Routinen, Programme, Objekte, Komponenten und/oder dergleichen enthalten. Das Computerprogramm kann auf einem Computer oder auf mehreren Computern in Kommunikation miteinander ausgeführt werden.
Das eine oder die mehreren Programme können auf computerlesbaren Medien verkörpert sein, die eine oder mehrere Ablagevorrichtungen, - -herstellungsartikel oder dergleichen enthalten können. Beispielhafte computerlesbare Medien enthalten Computersystemspeicher, z. B. RAM (Schreib-Lese-Speicher), ROM (Nur-Lese-Speicher); Halbleiterspeicher, z. B. EPROM (löschbaren, programmierbaren ROM), EEPROM (elektrisch löschbaren, programmierbaren ROM), Flash-Speicher, magnetische oder optische Platten oder Bänder; und/oder dergleichen. Außerdem kann das computerlesbare Medium Computer-zu-Computer-Verbindungen enthalten, wenn z. B. Daten über ein Netz oder über eine andere Kommunikationsverbindung (entweder verdrahtet, drahtlos oder eine Kombination davon) übertragen oder bereitgestellt werden. Irgendeine oder irgendwelche mehreren Kombinationen der obigen Beispiele sind ebenfalls in Umfang der computerlesbaren Medien enthalten. Somit ist festzustellen, dass das Verfahren wenigstens teilweise durch irgendwelche elektronischen Artikel und/oder Vorrichtungen ausgeführt werden kann, die einem oder mehreren Schritten des offenbarten Verfahrens entsprechende Anweisungen ausführen können.
Selbstverständlich ist das Vorstehende eine Beschreibung einer oder mehrerer bevorzugter beispielhafter Ausführungsformen der Erfindung. Die Erfindung ist nicht auf die hier offenbarten eine oder mehreren besonderen Ausführungsformen beschränkt, sondern vielmehr allein durch die folgenden Ansprüche definiert. Darüber hinaus beziehen sich die in der vorstehenden Beschreibung enthaltenen Aussagen auf besondere Ausführungsformen und sind nicht als Beschränkungen des Umfangs der Erfindung oder der Definition der in den Ansprüchen verwendeten Begriffe zu verstehen, es sei denn, dass ein Begriff oder eine Formulierung ausdrücklich oben definiert worden ist. Für den Fachmann auf dem Gebiet gehen verschiedene andere Ausführungsformen und verschiedene Änderungen und Abwandlungen der offenbarten Ausführungsform(en) hervor. Zum Beispiel kann die Erfindung auf andere Gebiete der Sprachsignalverarbeitung, z. B. auf Mobiltelekommunikationen, Sprache-über-Internet-Protokoll-Anwendungen und dergleichen, angewendet werden. Alle solchen anderen Ausführungsformen, Änderungen und Abwandlungen sollen im Umfang der beigefügten Ansprüche liegen.
Wie die Begriffe „zum Beispiel“, „beispielsweise“, „wie etwa“ und „wie“ und die Verben „umfassend“, „aufweisend“ „enthaltend“ und ihre anderen Verbformen in dieser Beschreibung und in diesen Ansprüchen verwendet sind, sollen sie, wenn sie im Zusammenhang mit einer Auflistung einer oder mehrerer Komponenten oder anderer Positionen verwendet werden, jeweils als offen verstanden werden, d. h., soll die Auflistung nicht so verstehen werden, dass sie andere, zusätzliche Komponenten oder Positionen ausschließt. Andere Begriffe sollen unter Verwendung ihrer weitesten sinnvollen Bedeutung verstanden werden, es sei denn, dass sie in einem Kontext verwendet sind, der eine andere Interpretation erfordert.

Claims

Verfahren für die Sprachsynthese, wobei das Verfahren die folgenden Schritte umfasst: (a) Empfangen einer Texteingabe in ein Text-zu-Sprache-System (210); (b) Verarbeiten der Texteingabe zu synthetischer Sprache unter Verwendung eines Prozessors (214) des Systems (210); (c) Feststellen, dass die synthetische Sprache unverständlich ist; (d) erneutes Verarbeiten der Texteingabe zu nachfolgender synthetischer Sprache, um die unverständliche synthetische Sprache zu korrigieren; und (e) Ausgeben der nachfolgenden synthetischen Sprache über einen Lautsprecher (230) an einen Anwender, wobei der Schritt (c) enthält: (c1) Vorhersagen der Verständlichkeit der synthetischen Sprache; und (c2) Bestimmen, dass die vorhergesagte Verständlichkeit aus Schritt (c1) niedriger als ein Minimumschwellenwert ist, und wobei das Verfahren zwischen den Schritten (c) und (d) ferner umfasst: (f) Anpassen von in Verbindung mit dem Schritt (d) verwendeten Akustikmodellen (226), wobei eine Beziehung zwischen zwei oder mehr prosodischen Attributen der Akustikmodelle (226) und der Verständlichkeit definiert wird, wobei ein Punktestand der Verständlichkeit als eine Summe gewichteter prosodischer Attribute berechnet wird und wobei die Akustikmodelle (226) unter Verwendung einer gaußschen Wahrscheinlichkeitsdichtefunktion, welche die prosodischen Attribute repräsentiert, geschätzt werden und Gewichte der Attribute geändert werden, so dass ein gaußsches Mischverteilungsmodell geschätzt wird, bis ein wahrscheinlichstes Modell (226) erhalten wird, das zu einem Punktestand der Verständlichkeit führt, der größer als der Minimumschwellenwert ist.
Verfahren nach Anspruch 1, das nach dem Schritt (e) ferner umfasst: (g) Vorhersagen der Verständlichkeit der nachfolgenden synthetischen Sprache; (h) Bestimmen, ob die vorhergesagte Verständlichkeit aus Schritt (g) niedriger als der Minimumschwellenwert ist; (i) Ausgeben der nachfolgenden synthetischen Sprache über den Lautsprecher (230) an den Anwender, falls in Schritt (h) bestimmt wird, dass die vorhergesagte Verständlichkeit nicht niedriger als der Minimumschwellenwert ist; und anderenfalls (j) Wiederholen der Schritte (f) bis (j),