DE102012219019A1

DE102012219019A1 - Architektur für mobile sprachplattform mit schnittstellen zu entfernt vorgesehenen diensten

Info

Publication number: DE102012219019A1
Application number: DE201210219019
Authority: DE
Inventors: Denis R. Burke; Danilo Gurovich; Daniel E. Rudman; Keith A. Fry; Shane M. McCutchen; Marco T. Carnevale; Mukesh Gupta
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2011-10-21
Filing date: 2012-10-18
Publication date: 2013-04-25

Abstract

Eine mobile Stimmplattform zur Bereitstellung einer Nutzersprachschnittstelle zu computerbasierten Diensten umfasst eine Mobilvorrichtung mit einem Prozessor, einer Kommunikationsschaltung, die einen Zugriff auf die computerbasierten Dienste bereitstellt, einem Betriebssystem und einer oder mehreren Anwendungen, die unter Verwendung des Betriebssystems laufen und die ein oder mehrere computerbasierte Dienste über die Kommunikationsschaltung verwenden. Die mobile Stimmplattform umfasst zumindest ein nicht transientes digitales Speichermedium, das ein Programmmodul mit Computerbefehlen speichert, das bei Ausführung durch den Prozessor Spracherkennungsergebnisse, die Nutzersprache repräsentieren, die unter Verwendung automatisierter Spracherkennung verarbeitet worden ist, empfängt, einen gewünschten computerbasierten Dienst auf Grundlage der Spracherkennungsergebnisse bestimmt, auf eine entfernt gespeicherte Dienstschnittstelle, die dem gewünschten Dienst zugeordnet ist, zugreift, den gewünschten Dienst unter Verwendung der Dienstschnittstelle auslöst, ein Dienstergebnis von dem gewünschten Dienst empfängt und eine textbasierte Dienstantwort zur Umwandlung in eine Sprachantwort zur Bereitstellung an den Nutzer vorsieht.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht die Priorität der US-Anmeldung Nr. 61/550,367, die am 21. Oktober 2011 eingereicht wurde und deren gesamten Inhalte hier durch Bezugnahme hierdurch eingeschlossen sind.
TECHNISCHES GEBIET
Die vorliegende Erfindung betrifft Sprachschnittstellen mit computerbasierten Diensten, die drahtlos von einem Zellulartelefon oder einer anderen Mobilvorrichtung erhalten werden, und derartige Schnittstellen, die in einem Fahrzeug, wie einem Personenwagen, implementiert sind.
HINTERGRUND
Funktionen von sprachbasierten Mensch-Maschine-Schnittstellen (HMI von engl.: ”human-machine interfaces) zum Fahrzeug und Zellulartelefonfunktionen und -anwendungen betreffen typischerweise einen anwendungsspezifischen oder funktionsspezifischen begrenzten Befehlssatz, der syntaktisch beschränkte Interaktionen zwischen dem Nutzer und den HMI erfordert. Bei diesen Systemen kann eingegebene Sprache in einen spezifischen Befehl für eine spezifische Anwendung umgewandelt werden, es existiert jedoch typischerweise nur eine beschränkte Fähigkeit zur Identifizierung und Ausführung verschiedener Dienste, die verschiedene Anwendungen oder Dienstanbieter betreffen.
Auf dem Gebiet des Zellulartelefongebrauchs in Fahrzeugen sind Systeme vorgeschlagen und einige implementiert worden, die helfen, eine Ablenkung des Fahrers zu reduzieren, indem ein freihändiger Telefongebrauch bereitgestellt wird wie auch einige grundsätzliche Fahrzeugsteueraufgaben ausgeführt werden, wie Auswählen und Steuern von Radio- und anderen Infotainmentdiensten an dem Fahrzeug. Bei einigen Systemen wird dies unter Verwendung eines eingebetteten Zellulartelefons gemacht, das Zugriff auf zumindest Abschnitte der Fahrzeugelektronik besitzt, um so eine Steuerung und ein Berichten über eine Sprachnutzerschnittstelle zuzulassen. Bei anderen Fahrzeugen wird für diesen Zweck die persönliche Mobilvorrichtung (z. B. Zellulartelefon) des Fahrers oder eines anderen Insassen verwendet, wobei das Fahrzeug eine grundsätzliche Audioschnittstelle bereitstellt, die ein Mikrofon sowie einen oder mehrere Lautsprecher wie auch eine Bluetooth- oder andere Drahtlosverbindung zu der Mobilvorrichtung aufweist. Dies erlaubt ein Senden von Sprache und anderem Ton zwischen der Audioschnittstelle und der Mobilvorrichtung in jeder Richtung. Jedoch sind diese Systeme typischerweise darauf beschränkt, dass nur einige grundsätzliche Mobilvorrichtungsfunktionen ermöglicht werden, wie Anrufen und Steuern einer Musikauswahl und Wiedergabe. Sie sehen keinen Zugriff auf die vielen anderen eingebauten und vom Nutzer hinzugefügten Anwendungen und Funktionen vor, die heutzutage typischerweise verfügbar sind.
Beispielsweise existieren nun eine weit verbreitete Verfügbarkeit und ein weit verbreiteter Gebrauch von Mobilvorrichtungen, wie Smartphones, die dem Nutzer ein Downloaden und Installieren relativ kleiner Softwareanwendungen (Apps) erlauben. Einige dieser Smartphones besitzen eingebaute Sprachunterstützung entweder über das Betriebssystem (OS von engl.: ”operating system”), wie in dem Fall des Android^TM OS, oder über eine eingebaute App, wie Siri^TM, die auf dem iPhone4S^TM verfügbar ist. Siehe beispielsweise WO 2011088053 , die am 21. Juli 2011 veröffentlicht wurde. Während ein größeres Integrationsniveau bereitgestellt wird, sind diese kommerziell verfügbaren Systeme nicht dazu konfiguriert, einen vollständig freihändigen Gebrauch der Mobilvorrichtung bereitzustellen, da sie sich immer noch stark auf den Bildschirm zur Interaktion mit dem Nutzer während der Sprachsitzung verlassen.
ZUSAMMENFASSUNG DER ERFINDUNG
Gemäß einem Aspekt der Erfindung ist eine mobile Stimmplattform zur Bereitstellung einer Nutzersprachschnittstelle zu computerbasierten Diensten unter Verwendung einer Mobilvorrichtung bereitgestellt, die einen Prozessor, eine Kommunikationsschaltung, die einen Zugriff auf die computerbasierten Dienste bereitstellt, ein Betriebssystem und eine oder mehrere Anwendungen besitzt, die unter Verwendung des Betriebssystems betrieben werden und die einen oder mehrere der computerbasierten Dienste über die Kommunikationsschaltung verwenden, wobei die mobile Stimmplattform umfasst: zumindest ein dauerhaftes digitales Speichermedium, das ein Programmmodul mit Computerbefehlen speichert, das bei Ausführung durch den Prozessor Spracherkennungsergebnisse empfängt, die die Nutzersprache repräsentieren, die unter Verwendung automatischer Spracherkennung verarbeitet worden ist, einen gewünschten computerbasierten Dienst auf Grundlage der Spracherkennungsergebnisse bestimmt, auf eine entfernt gespeicherte Dienstschnittstelle, die dem gewünschten Dienst zugeordnet ist, zugreift, den gewünschten Dienst unter Verwendung der Dienstschnittstelle auslöst, ein Dienstergebnis von dem gewünschten Dienst empfängt und eine textbasierte Dienstantwort zur Umwandlung in eine Sprachantwort zur Bereitstellung an den Nutzer vorsieht.
Gemäß einem anderen Aspekt der Erfindung ist ein Kommunikationssystem zur Kommunikation zwischen einer Mobilvorrichtung und einem oder mehreren Cloud-Diensten vorgesehen. Das Kommunikationssystem umfasst ein Zellular- oder Drahtloskommunikationssystem, das drahtlose Kommunikationen zwischen einem oder mehreren computerbasierten Diensten und einer mobilen Vorrichtung trägt, wobei die mobile Vorrichtung einen Prozessor, eine Kommunikationsschaltung, die einen Zugriff auf die computerbasierten Dienste bereitstellt, ein Betriebssystem, eine oder mehrere Anwendungen, die unter Verwendung des Betriebssystems betrieben werden und die einen oder mehrere der computerbasierten Dienste über die Kommunikationsschaltung und das Zellular- oder Drahtloskommunikationssystem verwenden, und eine mobile Stimmplattform zur Bereitstellung einer Nutzersprachschnittstelle zu computerbasierten Diensten unter Verwendung einer Vorrichtung umfasst, wobei die mobile Stimmplattform zumindest ein nicht transientes digitales Speichermedium aufweist, das ein Programmmodul mit Computerbefehlen speichert, das bei Ausführung durch den Prozessor Spracherkennungsergebnisse empfängt, die Nutzersprache repräsentieren, die unter Verwendung automatischer Spracherkennung verarbeitet worden ist, einen gewünschten computerbasierten Dienst auf Grundlage der Spracherkennungsergebnisse bestimmt, auf eine entfernt gespeicherte Dienstschnittstelle, die dem gewünschten Dienst zugeordnet ist, zugreift, den gewünschten Dienst unter Verwendung der Dienstschnittstelle auslöst, ein Dienstergebnis von dem gewünschten Dienst empfängt und eine textbasierte Dienstantwort zur Umwandlung in eine Sprachantwort zur Bereitstellung an den Nutzer vorsieht.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Eine oder mehrere Ausführungsformen der Erfindung sind nachfolgend in Verbindung mit den angefügten Zeichnungen beschrieben, wobei gleiche Bezeichnungen gleiche Elemente bezeichnen, und in welchen:
1 schematisch die Anteile der Hardware und Methodologie zeigt, die dazu verwendet werden, eine Sprachnutzerschnittstelle gemäß einer Ausführungsform der Erfindung bereitzustellen;
2 ein Blockdiagramm ist, das eine Ausführungsform eines Kommunikationssystems, das in der Lage ist, die Sprachnutzerschnittstelle von 1 zu verwenden, wie auch die hier offenbarten Verfahren zeigt;
3 ein Blockdiagramm von einigen der Hardware- und Softwarekomponenten der mobilen Vorrichtung, die in den 1 und 2 gezeigt ist, ist;
4 die gestufte Softwarestruktur und Programmmodulinteraktionen der mobilen Stimmplattform und des Betriebssystems zeigt, die an der mobilen Vorrichtung der 1 bis 3 verwendet sind;
5 weitere Einzelheiten betreffend die Struktur von Dienstschnittstellen zeigt, die in der Anwendungsschnittstellenfolge von 4 verwendet sind;
6 ein Flussdiagramm eines Verfahrens ist, das mit der Sprachnutzerschnittstelle der 1 und 2 verwendet werden kann, um einen Nutzer mit einer vollständig freihändigen Sprachsitzung zu versehen;
7 ein Sequenzdiagramm ist, das Nachrichtenströme für eine beispielhafte Sprachsitzung zeigt;
8 die 8A und 8B umfasst und ein anderes Sequenzdiagramm ist, das Nachrichtenströme für eine andere beispielhafte Sprachsitzung zeigt;
9 eine alternative Ausführungsform der gestuften Softwarestruktur und der Programmmodulinteraktionen, die in 4 gezeigt sind, zeigt; und
10 eine modifizierte Implementierung der Ausführungsform von 9 zeigt.
DETAILLIERTE BESCHREIBUNG DER VERANSCHAULICHTEN AUSFÜHRUNGSFORM(EN)
Das System und Verfahren, die nachfolgend beschrieben sind, sehen eine mobile Stimmplattform vor, die (1) eine freihändige Kommunikation zwischen einem Fahrzeuginsassen und dem Zellulartelefon oder einer anderen Mobilvorrichtung des Insassen ermöglicht, ohne dass eine physikalische Interaktion mit der mobilen Vorrichtung erforderlich ist, und (2) dies auf eine Weise macht, die eine breite Unterstützung für einige oder alle der internetbasierten oder anderen computerbasierten Dienste ermöglicht, die dem Nutzer über die mobile Vorrichtung verfügbar sind. Der hier verwendete Begriff ”Dienste” umfasst allgemein die Bereitstellung von Information, Steuerung und/oder Kommunikationsassistenz für den Nutzer der mobilen Vorrichtung. Ferner weist, wie hier beschrieben ist, ein Dienst, der an der mobilen Vorrichtung verwendet wird oder auf den über die Mobile Vorrichtung zugegriffen wird, diejenigen auf, die anhand von Anwendungen, die an der mobilen Vorrichtung installiert sind, wie auch computerbasierten Diensten vorgesehen sind, die nur durch Kommunikation mit einem entfernten Server verfügbar sind. Diese letztgenannten computerbasierten Dienste werden auch als ”Cloud-Dienste” bezeichnet und können durch einen beliebigen Dienstanbieter geliefert werden, der einen abgreifbaren Server aufweist, der über ein privates oder öffentliches Netzwerk verfügbar ist, wie einem Intranet oder das Internet.
1 zeigt eine Ausführungsform einer sprachbasierten Nutzerschnittstelle 10, wie sie zur Bereitstellung von Diensten über eine Mobilvorrichtung für einen Fahrzeugfahrer in einer freihändigen Weise verwendet werden kann. Der hier verwendete Begriff ”freihändig” bedeutet, dass der Nutzer einen Teil oder alles einer vollständigen sprachbasierten Sitzung unter Verwendung der Mobilvorrichtung ohne physikalische Interaktion oder Steuerung der Vorrichtung ausführen kann oder ausgeführt hat. ”Vollständig freihändig” bedeutet, dass der Nutzer alles einer vollständigen sprachbasierten Sitzung unter Verwendung der Mobilvorrichtung ohne physikalische Interaktion oder Steuerung der Vorrichtung ausführen kann oder ausgeführt hat. Einige Ausführungsformen können implementiert sein, um einen freihändigen Gebrauch bereitzustellen, der eine gewisse Interaktion mit der Mobilvorrichtung erfordern kann, wie, diese in einen Hörmodus zu bringen, während andere Ausführungsformen vollständig freihändig ausgeführt werden können, während beispielsweise die Mobilvorrichtung sich in der Tasche, Börse oder der Aktentasche des Nutzers befindet, ohne dass ein physikalischer Zugriff auf die Vorrichtung notwendig ist.
Bei der gezeigten Ausführungsform interagiert ein Fahrer eines Fahrzeugs 12 über Sprache mit einer an Bord befindlichen installierten Audionutzerschnittstelle 14, die über eine Kurzbereichsdrahtlosverbindung mit der mobilen Vorrichtung 14 des Fahrers kommuniziert, die in diesem Fall ein Zellulartelefon ist. Die mobile Vorrichtung 16 kann eine beliebige tragbare Vorrichtung sein, die zu drahtloser Kommunikation und Digitalverarbeitung in der Lage ist, unabhängig davon, ob sie einen Mikroprozessor oder irgendeine einfachere oder komplexere Schaltung verwendet. Somit umfassen mobile Vorrichtungen Zellulartelefone, PDAs, Laptops, Notebooks, Netbooks und andere persönliche elektronische Vorrichtungen. Das Zellulartelefon 16, das in 1 gezeigt ist, ist üblicherweise als ein Smartphone bezeichnet, vorausgesetzt, dass es dem Nutzer ermöglicht, Softwareanwendungen (Apps) dem Smartphone hinzuzufügen, die Funktionen jenseits von Telefonie ausführen. Das Telefon 16 umfasst eine Touchscreen-Schnittstelle, einen oder mehrere manuelle Druckknöpfe, ein Mikrofon, einen Lautsprecher sowie interne Schaltung (Hardware) mit einem Mikroprozessor, einem Speicher zum Speichern von Software und Daten sowie einer Kommunikationsschaltung, die zumindest eine Kurzbereichsdrahtloskommunikationstechnologie, wie Bluetooth und/oder WiFi, aber auch Zellularkommunikationstechnologie aufweist, wie einen Zellularchipset für CDMA, GSM und andere standardisierte Technologie. Diese verschiedenen Komponenten der mobilen Vorrichtung 16 können nach Bedarf herkömmlich sein und werden somit hier nicht separat veranschaulicht oder detailliert beschrieben.
Abgesehen von der Mobilvorrichtungshardware umfasst ein Zellulartelefon 16 eine mobile Stimmplattform (MVP) 18, die Software umfasst, die auf der mobilen Vorrichtung läuft. Die MVP 18 weist einen Sprachplattformkern (SPK von engl.: ”speech platform kernel”) 20 sowie eine Anwendungsschnittstellenfolge (AIS von engl.: ”application interface suite”) 22 auf, die beide Programmmodule sind, die Computerbefehlen umfassen, die bei Ausführung durch den Prozessor der Vorrichtung ihre jeweiligen Modulfunktionen ausführen, wie nachfolgend beschrieben ist. Anstatt der Bereitstellung automatisierter Sprachverarbeitung (ASR) an der Mobilvorrichtung selbst werden entfernt angeordnete (Cloud-)Sprachdienste 24 verwendet, obwohl bei einigen Ausführungsformen ASR an der Mobilvorrichtung 16 entweder mit oder ohne Zugriff zu entfernt angeordneten Sprachmodulen, Grammatiken und Berechnungseinrichtungen ausgeführt werden kann. Die mobile Vorrichtung 16 umfasst auch ein Betriebssystem (OS) 26, das Root-Level- bzw. Basisfunktionen bereitstellt, die beispielsweise Mechanismen zur Kommunikation zwischen Anwendungen und Eingangs/Ausgangs-I/O-Schnittstellenbildung zwischen Vorrichtungshardware und Softwaremodulen und Anwendungen, die an der Vorrichtung 16 laufen, aufweisen. In diesen Hardwareschnittstellenfunktionen des OS sind Kommunikationsprotokolle enthalten, die von der Vorrichtung verwendet werden, mit den Sprachdiensten 24 wie auch anderen Cloud-Diensten 28, die über das Internet oder ein anderes Netzwerk verfügbar sind, zu kommunizieren. Es kann jeder computerbasierte Dienst in der Liste von Cloud-Diensten 28 enthalten sein, jedoch sind in 1 einige dieser Dienste am nützlichsten für Nutzer von Zellulartelefonen; d. h. soziale Medien, Ortungsdienste (z. B. Navigation), Verkehr, Wetter, Neuigkeiten, Kalender, Speisen und Filme. Es können andere existieren.
Allgemein betrifft ein handfreier Zugriff auf Dienste unter Verwendung einer mobilen Stimmplattform 18 die Ausführung einer vollständigen Sprachsitzung über eine Mobilvorrichtung 16 ohne jegliche physikalische Interaktion mit der Mobilvorrichtung. Dies umfasst breit ein Empfangen eines Spracheingangs von einem Nutzer, ein Erhalten eines Dienstergebnisses von einem Cloud-Dienst, der auf den Inhalt des Spracheingangs anspricht, und das Bereitstellen des Dienstergebnisses als eine Sprachantwort, die dem Nutzer präsentiert wird. Bei der Verwendung des Fahrzeugs 12 in 1 kann der Fahrer (Nutzer) mit der Mobilvorrichtung interagieren, um die Sprachsitzung über die Audioschnittstelle 14 auszuführen. Dies kann ein Herstellen einer Kurzbereichsdrahtlosverbindung zwischen der im Fahrzeug befindlichen Audioschnittstelle 14 und der Mobilvorrichtung 16 umfassen, die dann die Verwendung des Mikrofons und des Lautsprechers der Audioschnittstelle ermöglicht, um Sprache zu empfangen bzw. Sprache dem Fahrer oder einem anderen Insassen darzubieten. Der Spracheingang kann als digitalisierte Sprache über diese Kurzbereichsdrahtlosverbindung via ein Digitalkommunikationsprotokoll, wie Bluetooth oder WiFi gesendet werden. Der digitalisierte Spracheingang kann dann von der Mobilvorrichtung 16 über ein Zellular- oder anderes Drahtloskommunikationssystem an die Sprachdienste 24 gesendet werden, um Dienste von Sprache zu Text (STT) auszuführen, die automatisierte Spracherkennung betreffen, oder Dienste von Text zu Sprache (TTS) auszuführen, die entweder synthetisierte oder aufgezeichnete Sprache oder Sprachanteile (z. B. Phänomene) zur Verwendung bei der Erzeugung einer Audionachricht bereitstellen, die eine geeignete Sprachantwort auf den Spracheingang bereitstellt. Die Spracherkennungsergebnisse (z. B. rückgeführter Text) werden dann von der SPK 20 verarbeitet, um schließlich den geeigneten (gewünschten) Dienst zu bestimmen, der zur Ausführung der Anforderung des Nutzers verwendet werden soll. Sobald der/die gewünschte(n) Dienst(e) bestimmt worden ist (sind), wird eine Dienstanforderung unter Verwendung der Befehle und Parameter geformt, die durch den bestimmten Dienst unterstützt werden, der unter Verwendung einer oder mehrerer Dienstschnittstellen von der Anwendungsschnittstellenfolge (AIS) 22 gewählt ist, wie nachfolgend detaillierter erläutert ist. Die Dienstanforderung wird an den gewünschten Dienst (installierte App und/oder Cloud-Dienst) gesendet und ein Dienstergebnis wird zurück empfangen. Das Dienstergebnis wird dann dazu verwendet, eine Sprachantwort in natürlicher Sprache zu erzeugen; dies bedeutet die Verwendung von Konversationssprache sowie Satz-/Absatzstrukturen, die gängig und kontextspezifisch sind. Die Sprachantwort kann eine Audionachricht sein, die als eine Textantwort von Information in dem Dienstergebnis wie auch von anderer verfügbarer Information, wie Sitzungsvariablen und kontextspezifischen Objekten, anfänglich aufgebaut wird, wie nachfolgend detaillierter erläutert ist. Sobald die Textantwort formuliert worden ist, wird sie in eine Audiosprachantwort (z. B. Audionachricht) umgewandelt, und dies kann entweder an der Mobilvorrichtung 16 selbst oder unter Verwendung der TTS-Dienste 24 gemacht werden. Die Audionachricht kann dann von der Mobilvorrichtung an die Audionutzerschnittstelle 14 über die Kurzbereichsdrahtlosverbindung zur Präsentation für den Fahrzeuginsassen über den/die Fahrzeuglautsprecher gesendet werden.
Nun Bezug nehmend auf 2 ist eine Betriebsumgebung gezeigt, die ein mobiles Fahrzeugkommunikationssystem 100 umfasst, das die sprachbasierte Nutzerschnittstelle (SUI) 10 enthält und das dazu verwendet werden kann, die hier offenbarten Verfahren zu implementieren. Das Kommunikationssystem 100 weist allgemein das Fahrzeug 12 und seine Audionutzerschnittstelle 14, eine Mobilvorrichtung 16, Sprachdienste 24 und Cloud-Dienste 28 wie auch einiges der Systeminfrastruktur, die in 1 nicht gezeigt ist, auf, einschließlich einem oder mehreren drahtlosen Trägersystemen 34 sowie einem Landkommunikationsnetzwerk bzw. Festnetz 36. Andere optionale Ausstattungen, Einrichtungen und Systeme können enthalten sein, wie ein Computer 37, ein Rufcenter 38, eine in einer Wohnung befindliche oder andere fixierter Einrichtungen 39 für Local Area Network, ein Satellitenkommunikationssystem mit fixierte Antenne 54 und einem oder mehreren Satelliten 56 und auch eine Konstellation 58 aus GPS-Satelliten zur Navigation. Es sei zu verstehen, dass das offenbarte Verfahren mit einer beliebigen Anzahl verschiedener Systeme verwendet werden kann und nicht auf die Betriebsumgebung, die hier gezeigt ist, spezifisch beschränkt ist. Auch sind die Architektur, die Konstruktion, die Einrichtung sowie der Betrieb der Komponenten des Systems 100, die hier nicht beschrieben sind, in der Technik allgemein bekannt. Somit sehen die folgenden Absätze einfach einen kurzen Überblick über ein derartiges Kommunikationssystem 10 vor; jedoch können andere Systeme, die nicht gezeigt sind, das offenbarte Verfahren genauso gut anwenden.
Das Fahrzeug 12 ist in der gezeigten Ausführungsform als ein Geländewagen (SUV) gezeigt, jedoch sei angemerkt, dass irgendein anderes Fahrzeug einschließlich Personenkraftwägen, Lastwägen, Motorrädern, Wohnmobilen (RVs von engl.: ”recreational vehicle”), Schiffe, Flugzeuge, etc. genauso verwendet werden können. Einige der Fahrzeugelektronik 29 ist in 2 allgemein gezeigt und umfasst eine Telematik- oder Telefonieeinheit 30, die drahtlos mit dem Trägersystem 34 über eine Antenne 32 und eine andere Schaltung kommuniziert, die dem Fachmann bekannt ist. Fahrzeugelektronik 29 weist auch die Audionutzerschnittstelle 14 auf, die eine Antenne 40 zur Kurzbereichsdrahtloskommunikation, ein Mikrofon 42, einen oder mehrere Druckknöpfe oder andere Steuereingänge 44 sowie einen oder mehrere Lautsprecher 46 aufweist. Andere Nutzerschnittstellenkomponenten können in dem Fahrzeug 12 oder als ein Teil der Audionutzerschnittstelle 14 enthalten sein, wie ein visuelles Display (nicht gezeigt). Die Audionutzerschnittstelle 14 kann ein im Wesentlichen allein stehender Satz von Komponenten sein, der nur über die Antenne 40 kommuniziert, oder kann in andere Module oder Abschnitte des Elektroniksystems des Fahrzeugs verdrahtet oder anderweitig verschaltet sein, wie mit der Telefonieeinheit 30 und/oder einem Fahrzeugbus. Dies kann beispielsweise ermöglichen, dass das Fahrzeug 12 so programmiert wird, dass Umgebungsrauschen während einer Sprachsitzung reduziert wird, wie beispielsweise durch Reduzieren der Klimasteuergebläsedrehzahl, leiser Machen des Fahrzeugradios, etc. Der hier verwendete Begriff ”Audionutzerschnittstelle” umfasst breit jegliche geeignete Installation eines Mikrofons und Lautsprechers in dem Fahrzeug 12, einschließlich sowohl Hardware- als auch beliebiger Softwarekomponenten, die einem Fahrzeugnutzer ermöglichen, verbal mit dem Fahrzeug 12 oder anderen Vorrichtungen in dem Fahrzeug 12, wie einer mobilen Vorrichtung 16, zu kommunizieren. Das Mikrofon 42 liefert einen Audioeingang, der über die Kurzbereichsdrahtlosverbindung unter Verwendung einer Antenne 40 gesendet werden kann. Ein oder mehrere Druckknöpfe 44 erlauben einen manuellen Nutzereingang in die Audionutzerschnittstelle, um Aktionen auszulösen, wie den Start einer Sprachsitzung, bei der das Mikrofon 42 und der Lautsprecher 46 verwendet werden, den Nutzer mit Freihanddiensten in dem Fahrzeug zu versehen, wie zum Ausführen drahtloser Telefoniegespräche oder Zugriff auf Daten, Bereitstellen einer Fernsteuerung oder Bereitstellen von Nachrichten- und Kommunikationsdiensten. Der Druckknopf kann an einem geeigneten Punkt für den Fahrer angeordnet sein, wie an der Lenkradnabe oder den Lenkradspeichen. Der Lautsprecher 46 kann ein einzelner Lautsprecher sein, der zur Verwendung mit der Audionutzerschnittstelle 14 zweckgebunden ist, oder kann mit anderen Komponenten oder Systemen integriert sein, wie einem Radiosystemlautsprecher.
Bei der gezeigten Ausführungsform ist die Telefonieeinheit 30 eine optionale Komponente, die nicht bei der Ausführung des Betriebs der Sprachnutzerschnittstelle (SUI) 10 verwendet wird, sondern bei anderen Ausführungsformen in der Audionutzerschnittstelle 14 als ein einzelnes funktionales Modul enthalten und darin integriert sein kann. Die Telefonieeinheit 30 kann eine OEM-installierte (eingebettete) oder Zubehörmarktvorrichtung sein, die in dem Fahrzeug installiert ist und drahtlose Stimm- und/oder Datenkommunikation über ein Drahtlosträgersystem 34 und über Drahtlosnetzwerk ermöglicht. Dies erlaubt die Kommunikation des Fahrzeugs mit einem Rufcenter 38, anderen telematikunterstützten Fahrzeugen oder irgendeiner anderen Einheit oder Vorrichtung. Die Telefonieeinheit nutzt bevorzugt Radioübertragungen, um einen Kommunikationskanal (einen Stimmkanal und/oder einen Datenkanal) mit dem Drahtlosträgersystem 34 herzustellen, so dass Stimm- und/oder Datenübertragungen über den Kanal gesendet und empfangen werden können. Durch Bereitstellung von sowohl Stimm- als auch Datenkommunikation erlaubt die Telefonieeinheit 30, dass das Fahrzeug eine Anzahl verschiedener Dienste bietet, einschließlich denen in Verbindung mit Navigation, Telefonie, Notfallassistenz, Diagnose, Infotainment, etc. Die Daten können entweder über eine Datenverbindung, wie über eine Paketdatenübertragung über einen Datenkanal, oder über einen Stimmkanal unter Verwendung von in der Technik bekannten Techniken gesendet werden. Für kombinierte Dienste, die sowohl Stimmkommunikation (z. B. mit einem lebenden Betreuer oder einer Stimmantworteinheit an dem Rufcenter 38) als auch Datenkommunikation (z. B. um GPS-Ortungsdaten oder Fahrzeugdiagnosedaten an den Rufcenter 38 zu liefern) betreffen, kann das System einen einzelnen Anruf über einen Stimmkanal verwenden und nach Bedarf zwischen Stimm- und Datenübertragung über den Stimmkanal schalten, und dies kann unter Verwendung von Techniken durchgeführt werden, die dem Fachmann bekannt sind. Für Ortungsdienste kann die Telefonieeinheit ihre eigene GPS-Schaltung besitzen oder kann andere verfügbare GPS-Vorrichtungen verwenden, wie eine, die in dem Fahrzeug als Teil eines Fahrzeugnavigationssystems installiert ist, oder eine von der mobilen Vorrichtung 16 nutzen.
Das Drahtlosträgersystem 34 ist bevorzugt ein Zellulartelefonsystem, das eine Mehrzahl von Mobilfunkmasten 50 (nur einer gezeigt), eines oder mehrerer Mobilfunk-Vermittlungscenter (MSCs) 52 wie auch andere Netzwerkkomponenten umfasst, die erforderlich sind, um ein Drahtlosträgersystem 34 mit einem Festnetz 36 zu verbinden. Jeder Mobilfunkmast 50 umfasst Sende- und Empfangsantennen sowie eine Basisstation, wobei die Basisstationen von verschiedenen Mobilfunkmasten mit dem MSC 52 entweder direkt oder über Zwischenausstattung verbunden sind, wie einen Basisstationscontroller. Das Zellularsystem 34 kann eine beliebige geeignete Kommunikationstechnologie implementieren, einschließlich beispielsweise analoge Technologien, wie AMPS, oder den neueren digitalen Technologien, wie CDMA (z. B. CDMA2000) oder GSM/GPRS. Wie es in der Technik angemerkt sei, sind verschiedene Mobilfunkmast/Basisstation/MSC-Anordnungen möglich und können mit dem Drahtlossystem 34 verwendet werden. Beispielsweise können die Basisstation und der Mobilfunkmast gemeinsam an demselben Ort angeordnet sein oder sie können entfernt voneinander angeordnet sein, jede Basisstation kann für einen einzelnen Mobilfunkmast verantwortlich sein oder eine einzelne Basisstation kann verschiedene Mobilfunkmasten bedienen, und verschiedene Basisstationen können mit einem einzelnen MSC gekoppelt sein, um nur einige der möglichen Anordnungen zu nennen.
Abgesehen von der Verwendung des Drahtlosträgersystems 34 kann ein anderes Drahtlosträgersystem in der Form einer Satellitenkommunikation verwendet werden, um eine unidirektionale oder bidirektionale Kommunikation mit dem Fahrzeug bereitzustellen. Dies kann unter Verwendung eines oder mehrerer Kommunikationssatelliten 56 sowie einer Uplink-Übertragungsstation 54 durchgeführt werden. Eine unidirektionale Kommunikation können beispielsweise Satellitenradiodienste sein, wobei Programminhalt (Neuigkeiten, Musik, etc.) von der Übertragungsstation 54 empfangen wird, zum Upload gepackt wird und dann an den Satelliten 52 gesendet wird, der das Programm an Kunden sendet. Die bidirektionale Kommunikation können beispielsweise Satellitentelefoniedienste sein, die einen Satelliten 56 verwenden, um Telefonkommunikationen zwischen dem Fahrzeug 12 und der Station 54 zu schalten. Wenn diese Satellitentelefonie verwendet ist, kann sie entweder zusätzlich zu oder anstelle des Drahtlosträgersystems 34 verwendet werden.
Das Festnetz 36 kann ein herkömmliches landbasiertes Telekommunikationsnetzwerk sein, das mit einem oder mehreren Festnetztelefonen verbunden ist und das Drahtlosträgersystem 34 mit solchen Dingen verbindet, wie Sprachdiensten 24, Cloud-Diensten 28 sowie anderen Computern und Servern 37, wie einem Personalcomputer, der in einer Wohnung 39 oder einer anderen Einrichtung platziert ist. Beispielsweise kann das Festnetz 36 ein Fernsprechnetz (PSTN von engl.: ”public switched telephone network”) aufweisen, wie eines, das dazu verwendet wird, Festnetztelefonie, paketgeschaltete Datenkommunikationen und die Internetinfrastruktur bereitzustellen. Ein oder mehrere Segmente des Festnetzes 36 können durch die Verwendung eines Standarddrahtnetzes, eines Faser- oder anderen optischen Netzwerks, eines Kabelnetzwerks, Stromleitungen oder anderer drahtloser Netzwerke, wie drahtlose Local Area Networks (WLANs) oder Netzwerke, die einen Breitbanddrahtloszugriff (BWA von engl.: ”broadband wireless access”) bereitstellen, oder eine Kombination daraus implementiert sein. Ferner müssen die verschiedenen Sprach- und Cloud-Dienste, die in 2 gezeigt sind, nicht über das Festnetz 36 verbunden sein, sondern können Drahtlostelefonieausstattung aufweisen, so dass sie direkt mit einem Drahtlosnetzwerk, wie einem Drahtlosträgersystem 34 kommunizieren können.
Der Computer 37 kann einer einer Anzahl von Computern sein, die über ein privates oder öffentliches Netzwerk, wie das Internet, zugänglich sind. Jeder derartige Computer 37 kann für einen oder mehrere Zwecke verwendet werden, wie als ein Webserver, auf den durch das Fahrzeug über den Drahtlosträger 34 durch eine Audionutzerschnittstelle 14/Mobilvorrichtung 16 und/oder über Telefonieeinheit 30 zugegriffen wird. Andere derartige darauf zugreifbare Computer 37 können beispielsweise sein: ein Dienstcentercomputer, wo Diagnoseinformation und andere Fahrzeugdaten von dem Fahrzeug über die Telefonieeinheit 30 upgeloaded werden können; ein Clientcomputer, der von dem Fahrzeugeigner oder einem anderen Telematikdienstkunden für solche Zwecke wie Zugriff oder Empfang von Fahrzeugdaten oder Einrichten oder Konfigurieren von Kundenpräferenzen oder Steuern von Fahrzeugfunktionen verwendet wird; oder ein Drittmagazin, zu oder von dem Fahrzeugdaten oder andere Information bereitgestellt werden. Ein Computer 37 kann auch zur Bereitstellung einer Internetkonnektivität verwendet werden, wie DNS-Dienste, oder als ein Netzwerkadressserver, der DHCP oder ein anderes geeignetes Protokoll verwendet, um dem Fahrzeug 12 und/oder der Mobilvorrichtung 16 eine IP-Adresse zuzuordnen. Bei Verwendung als ein Clientcomputer 37 durch den Fahrzeugeigner, wie innerhalb einer Wohnung 39, kann die Drahtloskonnektivität zwischen der Mobilvorrichtung 16 und dem Computer 37 unter Verwendung irgendeiner geeigneten Kurzbereichsdrahtloskommunikationstechnologie bereitgestellt werden, wie Bluetooth oder eines der 802.11-Protokolle.
In 2 ist als einer der Cloud-Dienste ein Rufcenter 38 gezeigt, der dazu verwendet werden kann, den Fahrzeugbediener und/oder die Fahrzeugelektronik 29 mit einer Anzahl verschiedener fahrzeugbezogener Dienste sowie System-Back-End-Funktionen bereitzustellen. Diese umfassen solche Dinge, wie Straßen- oder Notfallassistenz, Diagnose- und Wartungsunterstützung, Entertainmentdienste, Information sowie Navigationsassistenz, etc., wie es in der Technik bekannt ist. Diese Rufcenterdienste können bereitgestellt werden, um diejenigen zu ergänzen, die dem Fahrzeugbediener über die Sprachnutzerschnittstelle 10 zugänglich sind, oder als Ausweichmöglichkeit in dem Fall, wenn der Bediener Schwierigkeiten mit der Sprachnutzerschnittstelle hat.
Obwohl sie außerhalb des Fahrzeugs in den 1 und 2 ausschließlich zur schematischen Darstellung gezeigt ist, betrifft der typische Gebrauch der Mobilvorrichtung 16 als Teil der Sprachnutzerschnittstelle 10 Umstände, bei denen die Mobilvorrichtung in dem Fahrzeug angeordnet ist, wie beispielsweise, wenn der Fahrer das Fahrzeug auf der Straße betreibt. Einige der grundsätzlichen funktionalen Hardware- und Softwarekomponenten der Mobilvorrichtung 16 sind in 3 gezeigt. Gemäß der Ausführungsform, die gezeigt ist, ist die Mobilvorrichtung 16 ein Smartphone, das eine Zellularkommunikation gemäß GSM- und/oder CDMA-Standards verwendet und somit einen Standardzellularchipsatz 61 und eine Antenne 62 zur Stimm- und Datenkommunikation, Antennen 63 und 64 und ihre zugeordnete Schaltung für Bluetooth- bzw. WiFi-Drahtloskommunikationen, eine elektronische Verarbeitungsvorrichtung 65, eine oder mehrere Digitalspeichervorrichtungen 66 und einen GPS-Empfänger 67 aufweist.
Der Prozessor 65 kann ein beliebiger Typ von Vorrichtung sein, der in der Lage ist, elektronische Befehle zu verarbeiten, einschließlich Mikroprozessoren, Mikrocontroller, Hostprozessoren, Controller, Fahrzeugkommunikationsprozessoren sowie anwendungsspezifische integrierte Schaltungen (ASICs). Der Prozessor 65 führt verschiedene Typen digital gespeicherter Befehle aus, wie Software- und Firmwareprogramme, die in dem Speicher 66 gespeichert sind. Dies umfasst das Vorrichtungs-OS 26, die mobile Fahrzeugplattform 18 sowie jegliche installierte Apps 68, die alle in dem Speicher 66 gespeichert sein können.
Das GPS-Modul 67 empfängt Funksignale von einer Konstellation 58 aus GPS-Satelliten. Von diesen Signalen kann das Modul 67 eine Mobilvorrichtungsposition bestimmen, die zur Bereitstellung von Navigation und anderen positionsbezogenen Diensten verwendet wird. Die Navigationsinformation kann an dem Display 69 der Vorrichtung angezeigt werden oder kann verbal über den der Vorrichtung eigenen Lautsprecher (nicht gezeigt) oder über die Audionutzerschnittstelle 14 präsentiert werden, wie es zum Liefern einer Navigation von Kurve um Kurve gemacht wird.
Allgemein kann die Sprachnutzerschnittstelle 10 teilweise unter Verwendung der mobilen Stimmplattform 18 realisiert sein, die auf dem Vorrichtungs-OS 26 läuft und mit installierten Apps 68, Cloud-Diensten 28 oder beiden koppelt, um Dienste für den Nutzer auf Grundlage seines Spracheingangs auszuführen. Weitere Einzelheiten der mobilen Stimmplattform und ihrer Interaktion mit den anderen Komponenten der Mobilvorrichtung 16 sind in den 4 und 5 gezeigt.
4 zeigt andere Programmmodule, von denen jedes Computerbefehle bereitstellt, die bei Ausführung durch den Prozessor 65 ihre programmierten Funktionen unter Verwendung des Vorrichtungs-OS 26 ausführen, um mit den verschiedenen Hardwareabschnitten der Vorrichtung 16 zu koppeln. Die mobile Stimmplattform 18 weist den Sprachplattformkern (SPK) 20 sowie eine App-Schnittstellenfolge (AIS) 22 auf. Der SPK 20 weist ein App-Auslösermodul 21 auf, das dazu verwendet wird, einen Dienstanruf von dem SPK 20 zu einem Dienst an der Vorrichtung (z. B. eine der Apps 68) oder in der Cloud (z. B. einen der Cloud-Dienste 28) auszulösen. Die AIS 22 weist eine Anzahl einzelner Anwendungsdienstschnittstellen 23 auf, von denen jede einem der verschiedenen Dienste zugeordnet ist, die an der mobilen Stimmplattform 18 verfügbar sind. Die einzelnen Funktionen, die durch die verschiedenen Schichten ausgeführt werden, sind wie folgt:
Vorrichtungs-OS 26:

• stellt eine zugrunde liegende Kommunikation mit Bluetooth und Vorrichtungskonnektivitätssteuerungen bereit
• stellt Medienabspieler-Funktionen der Mobilvorrichtung bereit, um zu bewirken, dass Audiodateien durch die Lautsprecher gespielt werden
• stellt eine mikrofonbetriebenes Spracherkennungssystem zum Umwandeln gesprochener Sprache in ein Textäquivalent bereit
• stellt Mechanismen zur Kommunikation zwischen Anwendungen bereit

Sprachplattformkern 20:

• verwaltet die gesamte High-Level-Bluetooth-Integration mit dem Fahrzeug 12
• sieht konsistentes Vokabular und Mechanismen zum Behandeln gemeinsamen Sprachinteraktionen vor, wie Fehlschlag, Verzeihung (habe sie nicht verstanden) und Beenden
• verarbeitet umgewandelte Sprache zu Text in Befehlsstrukturen zur Verwendung durch Apps
• behält High-Level-App-Präferenzen bei, die mit Bluetoothvorrichtungen in Verbindung stehen, Anforderungsmanagement
• sieht Protokollierungs- und Sicherheitsmanagement vor
• Hält eine Steuerung über Audio- und Mikrofonkanäle einschließlich Audiofokus und Verstärkungsniveaus zu geeigneten Zeiten bei

Dienstschnittstellen 23:

• verwendet ein standardisiertes Befehls/Parameter-I/O-Protokoll zur Kopplung mit dem SPK
• definiert die Grammatik, die diese zur Auslösung unterstützt
• definiert die Grammatik, die diese unterstützt, wenn die App aktiv ist
• verarbeitet ankommende Sprache-zu-Text-Befehlsstrukturen, die von dem SPK 20 bereitgestellt werden, und wandelt diese in gewünschte Aktionen um
• verbindet mit Cloud-Diensten, um Information, die erforderlich ist, um die Anforderung zu verarbeiten, zu senden und zu empfangen
• sieht jegliche gewünschte Nutzerschnittstelle des Vorrichtungsdisplays 69 vor

Wie oben und in 4 angegeben ist, läuft der SPK 20 an dem oberen Teil des Betriebssystems 26 und handhabt die gesamte Steuerung und Führung von Nachrichten, die für die mobile Stimmplattform verwendet werden. Der SPK 20 steuert den grundsätzlichen Prozessfluss der Sprachsitzung gemäß der Methodologie, die oben in Verbindung mit 1 diskutiert und in den 6–8 gezeigt ist. Während einer Sprachsitzung, in die ein Eingang (z. B. Anforderung oder Befehl) von einem Nutzer empfangen wird, handhabt das SPK 20 Sprachverarbeitung der Spracherkennungsergebnisse, die durch den cloudbasierten automatischen Spracherkennungs-(ASR)-Dienst rückgeführt werden. Dies wird unter Verwendung einer Nach-ASR-Dienstidentifizierungsgrammatik durchgeführt, die speziell mit einem Vokabular ausgelegt ist, das dazu bestimmt ist, einen gewünschten Dienst oder Sitzungskontext mit den Spracherkennungsergebnissen zu identifizieren. In diese Funktionalität ist eine Fehlerhandhabung und ein Aufbau von Antworten natürlicher Sprache zum Rückführen einer Sprachantwort an den Nutzer eingebaut. Ein Sitzungskontext (z. B. Navigation gegenüber Nachrichten gegenüber Speisereservierungen) kann ebenfalls an dem SPK 20 unter Verwendung dieser ersten Grammatik bestimmt werden, und der Sitzungskontext kann dazu verwendet werden, die Auswahl von Diensten, die durch den SPK 20 gewählt sind, weiter zu beschränken oder die Nach-ASR-Verarbeitung des Spracherkennungsergebnisses zu unterstützen. Jede Sprachsitzung besitzt zumindest einen Kontext; dies bedeutet, zumindest eine betreffende Domäne, der der Spracheingang des Nutzers zugeordnet ist. Die verschiedenen Cloud-Dienste, die in den 1 und 2 gezeigt sind, geben einige der verschiedenen Sitzungskontexte an, die identifiziert und unterschieden werden können. Für jede Sprachsitzung können ein Primärsitzungskontext und ein oder mehrere ergänzende Dienstkontexte vorhanden sein. Beispielsweise kann das Durchführen von Speisereservierungen einen Speisesitzungskontext aufrufen, bei denen die Primärnachrichteninhalte, nach denen nachgefragt wird, eine Identifizierung eines Restaurants, einer Anzahl von Leuten in der Veranstaltung, Reservierungszeit, etc. umfassen. Es kann auch einen Navigationskontext aufrufen, bei dem Richtungen zu dem Restaurant gewünscht sind. Oder ein Nachrichtenkontext, bei dem die Benachrichtigung der Reservierung mit anderen geteilt wird. Der SPK 20 bestimmt nicht nur einen Primärsitzungskontext, sondern auch einen oder mehrere ergänzende, wenn geeignet, und identifiziert für jeden einen geeigneten Cloud- oder installierten Dienst.
Die Sprachdienste, die in den 1 und 2 identifiziert sind, können in verschiedenen Wegen und in einigen Ausführungsformen implementiert sein, können einmalig ausgelegt sein oder können spezifische Grammatik oder Modelle enthalten, die derart ausgelegt sind, die Sprachnutzerschnittstelle 10 zu unterstützen. Bei anderen Ausführungsformen wird ein generalisierter Cloud-ASR-Dienst verwendet; dies bedeutet, einen, bei dem, obwohl er Parameterspezifikationen für bestimmte Sprachmodelle oder andere allgemeine Konfigurationen für die Spracherkennungsmaschine erlauben kann, keine Grammatik verwendet, die auf die Sitzungskontexte zugeschnitten ist, die für die Nutzersprachsitzung erwartet werden. Die Androidsprachfunktionalität, die von Google verfügbar ist, stellt ein Beispiel eines generalisierten Cloud-ASR-Dienstes vor.
Sobald der SPK 20 einen gewünschten Dienst identifiziert oder anderweitig bestimmt hat, nutzt er die App-Auslösung 21, um den gewählten Dienst über eine Dienstschnittstelle 23, die diesem Dienst zugeordnet ist, zu starten. Wie in 4 angegeben ist, interagieren einige der Dienstschnittstellen 23 nur mit den Cloud-Diensten oder nur mit Cloud-Diensten und der Vorrichtungsnutzerschnittstelle (z. B. Display 69), während andere mit den installierten Apps (z. B. App 4) koppeln, die selbst auf Cloud-Dienste unter Verwendung der Schnittstelle des Betriebssystems zu den Cloud-Diensten zugreifen können. Dies erlaubt, dass jede Dienstschnittstelle den gewählten Dienst nach Bedarf ausführt, so dass beispielsweise, wenn ein bestimmter Dienst das Display 69 der Mobilvorrichtung nutzen möchte, die Dienstschnittstelle die bestimmte Nutzerschnittstelle, die angezeigt werden soll, definieren kann.
Nun Bezug nehmend auf 5 ist ein weiteres Detail der Dienstschnittstellen 23 gezeigt. Jede Dienstschnittstelle 23 weist eine SPK-Nachrichtenstrukturschnittstelle auf, die dem standardisierten I/O-Protokoll folgt, das von dem SPK 20 für Datentransfers zu den Dienstschnittstellen verwendet wird. Dies sieht einen gemeinsamen Rahmen zur Interaktion mit der mobilen Sprachplattform vor, so dass auf neue Dienste durch Erzeugung einer Dienstschnittstelle zugegriffen werden kann, die die I/O-Spezifikation des SPK 20 erfüllt, während der SPK 20 die Befehle und Parameter identifiziert werden, die erforderlich sind, um Ergebnisse von dem Dienst aufzurufen und zu empfangen. Die Dienstschnittstelle umfasst eine Befehlsverarbeitung, die eine dienstspezifische Grammatik nutzt, um eine Dienstanforderungen aufzubauen und dann diese Dienstanforderung an den Cloud-Dienst oder die installierte App über das OS 26 zu senden. Die Dienstanforderung umfasst typischerweise jeglichen erforderlichen Befehl von der Dienstschnittstelle plus zumindest einen Teil der erkannten Sprachergebnisse (z. B. ein bestimmter Restaurantname) oder zugeordneter Daten (z. B. GPS-Koordinaten). Die dienstspezifische Grammatik ist eine, die Vokabular aufweist, das zum Auslösen und Anweisen des Dienstes verwendet wird, und ist typischerweise für jeden verschiedenen computerbasierten Dienst verschieden.
Das App-Auslösungmodul 21 des SPK 20 kann mit derselben Struktur implementiert sein, wie die Dienstschnittstellen, mit Ausnahme, dass es eine Schnittstelle für einen speziellen Zweck ist, die von dem SPK 20 verwendet wird, um eine gewählte Dienstschnittstelle zu kontaktieren, um den Dienst auszulösen und die erforderlichen Befehle und Parameter, die von dem Dienst verwendet werden, durchzulassen.
6 zeigt ein Flussdiagramm einer vollständigen Sprachsitzung, die dazu verwendet werden kann, einen freihändigen oder sogar vollständig freihändigen Betrieb der Mobilvorrichtung durch einen Fahrer in einem Fahrzeug bereitzustellen.
Die 7 und 8 sehen detailliertere Beispiele einer vollständigen Sprachsitzung vor, die verschiedene Zwischen-Modul- und Zwischen-Vorrichtungs-Anrufe und -Abfolgen zeigt, um einen Dienst anzufordern, ein Ergebnis zu erhalten und dieses dem Fahrzeugfahrer bereitzustellen, und zwar alles über die Audionutzerschnittstelle 14.
9 zeigt eine alternative Ausführungsform der Softwarearchitekturauslegung, bei der gleiche Bezugszeichen gleiche Elemente von 4 bezeichnen. Diese Ausführungsform 118 der mobilen Stimmplattform ist dahingehend ähnlich zu 4, dass sie ein erstes Programmmodul (SPK 120) und ein zweites Programmmodul (AIS 122) aufweist, jedoch die individuellen Dienstschnittstellen 123 nutzt, um den Stimmfluss zu definieren, der für einen bestimmten Dienst erforderlich ist, mit dem die Dienstschnittstelle in Verbindung steht. Dies wird unter Verwendung von Skripts ausgeführt, die die Handhabung von Spracherkennungsergebnissen, Anrufen an den Cloud-(computerbasierten)-Dienst und Handhaben zusätzlicher minimal erforderlicher und anderweitig gewünschter Information definieren. Beispielsweise lässt eine Anforderung nach einer Reservierung zum Speisen in einem bestimmten Restaurant um 18 h heraus, was als minimal erforderliche Information betrachtet werden kann; nämlich die Anzahl von Leuten in der Veranstaltung. Die Dienstschnittstelle 123, die dem angeforderten Speisereservierungsdienst zugeordnet ist, kann eine Programmierung aufweisen, um die fehlende Information zu bestimmen und eine Antwortnachricht (wie ”Wie viele sind bei Ihrer Veranstaltung?”) vorzusehen, die zur Umwandlung in Sprache und Präsentation für den Nutzer über das OS 26 an das SPK 120 geliefert werden.
Der Betrieb der Dienstschnittstellen 123 kann anhand einer App-Ausführungsmaschine 125 erfolgen, die eine Laufzeitausführungsumgebung für die Dienstschnittstellen bereitstellt. Ein SDK-(Softwareentwicklersatz)-definiertes Protokoll 127 sieht einen Satz von standardisierten oder üblichen Eingangs/Ausgangs-Tags oder anderer Identifizierung der Daten und Befehle vor, die zwischen dem SPK 120 und den Dienstschnittstellen 123 geführt werden. Dies kann beispielsweise unter Verwendung von VXML gemacht werden, bei dem der SPK 120 die einzelnen Abschnitte der empfangenen Spracherkennungsergebnisse unter Verwendung des SDK-Protokolls 127 auszeichnet bzw. mit einem Tag versieht und bei einigen Ausführungsformen diese in kleineres Vokabular umwandeln kann, das zumindest teilweise von den Dienstschnittstellen gemeinsam genutzt wird. Beispielsweise kann ”ein Restaurant in dem Bereich” als Spracheingang in ”Restaurant”, das als der gewünschte Dienst oder Sitzungskontext ausgezeichnet ist, und ”in dem Bereich” aufgespalten werden, das (wie andere allgemeine Ortungsbegriffe – ”hier herum”, ”nahe”, etc.) in einen einzelnen Begriff ”nahe gelegen” umgewandelt werden kann, der durch alle Dienstschnittstellen unterstützt wird, für die die Ortung verwendet wird, um den Dienst auszuführen.
Eine der Dienstschnittstellen 123 kann ein Sprachsitzungsstimmfluss (SSVF) 121 sein, der eine gleiche oder ähnliche Funktionalität der App-Auslösung 21 von 4 ausführt. Somit kann, wenn eine Sprachsitzung begonnen hat (z. B. durch einen Eingang zu der Mobilvorrichtung 16 direkt durch den Nutzer oder über einen Druckknopf in dem Fahrzeug, der zur Signalisierung der Mobilvorrichtung 16 über ihre Kurzbereichsdrahtloskommunikationsschaltung 63 verwendet wird) das SPK 120 anfänglich das SSVF-Skript abrufen, das den Stimmfluss für die Sprachsitzungskommunikation mit dem Nutzer definiert. Beispielsweise kann es festlegen, dass der Nutzer mit der Anmerkung ”Bitte um Anweisung” abgefragt wird und dann die Aktionen definieren kann, die auf Grundlage der Antwort insgesamt unternommen werden, bis ein gewünschter Dienst identifiziert ist und die zugeordnete Dienstschnittstelle abgerufen wird.
Die verschiedenen Programmmodule, die in den Figuren gezeigt sind, können in einem oder mehreren nicht transienten Speichern 66 (z. B. Flash-Speicher) an der Mobilvorrichtung 16 als Computerbefehle gespeichert werden, die bei Ausführung durch den Prozessor 65 die oben beschriebenen Funktionen ausführt. Bei anderen Ausführungsformen kann zumindest ein Teil der Programmmodule entfernt gespeichert sein, wie an einem entfernten Server oder anderem Computer, und kann nach Bedarf darauf zugegriffen werden. Beispielsweise kann, wie in 10 gezeigt ist, die App-Schnittstellenfolge (AIS) 122 an einem entfernten Ort gespeichert sein, wie dem Rufcenter 38 oder irgendeiner anderen entfernten Einrichtung oder einem anderen entfernten Computer. Anschließend kann, wenn der SPK 120 eine der Dienstschnittstellen erfordert, wie SSVF 121 zu Beginn einer Sprachsitzung, dieser entfernt auf die Dienstschnittstelle über das Zellularträgersystem 34 zugreifen, dieses downloaden und dieses lokal an der Mobilvorrichtung 16 unter Verwendung der App-Ausführungsmaschine 125 betreiben. Ähnlicherweise kann, sobald ein gewünschter Dienst identifiziert ist, auf die zugeordnete Dienstschnittstelle 123 entfernt zugegriffen werden, diese auf die Mobilvorrichtung downgeloaded werden und wieder betrieben werden, um den gewünschten Dienst zu implementieren, einschließlich der Erzeugung der erforderlichen Dienstanforderung, die dazu verwendet wird, mit einem bestimmten entfernten computerbasierten Dienst (z. B. über die API des Dienstes) zu koppeln. Ein Vorteil dieser entfernten Speicherung der Dienstschnittstellen besteht darin, dass sie nach Bedarf gewartet und aktualisiert werden können, während, wenn sie normalerweise an der Mobilvorrichtung gespeichert sind, periodisch aktualisiert werden müssen, was für einige Mobilvorrichtungsplattformen jedes Mal den Erhalt einer Nutzereinwilligung erfordern kann. Mit entfernter Speicherung muss, wenn eine Änderung an der Dienstschnittstelle durchgeführt werden soll (z. B., da der zugeordnete Dienst verbessert worden ist), dann nur die einzelne Version an dem Rufcenter oder einem anderen entfernten Ort aktualisiert werden und die Nutzer empfangen die jüngste Version jedes. Mal, wenn sie eine/n Sprachbefehl oder -anforderung bereitstellen, die den Dienst nutzt. Dies erlaubt auch eine Aktualisierung der durch die Dienstschnittstelle definierten Stimminteraktion nach Bedarf, so dass beispielsweise, wenn es erwünscht ist, SSVF 121 von ”Bitte um Anweisung” zu ”Wie kann ich Ihnen heute helfen?” zu ändern, dies zurück an dem Rufcenter durchgeführt werden kann, wiederum ohne dass die Nutzer jeweils die Software an ihrer Mobilvorrichtung aktualisieren müssen.
Es sei zu verstehen, dass das Vorhergehende eine. Beschreibung einer oder mehrerer Ausführungsformen der Erfindung ist. Die Erfindung ist nicht auf die bestimmte(n) Ausführungsform(en), die hier offenbart ist/sind, beschränkt, sondern ist vielmehr ausschließlich durch die Ansprüche nachfolgend definiert. Ferner betreffen die Anmerkungen, die in der vorhergehenden Beschreibung enthalten sind, bestimmte Ausführungsformen und sind nicht als Begrenzungen hinsichtlich des Schutzumfangs der Erfindung oder hinsichtlich der Definition von Begriffen, die in den Ansprüchen verwendet sind, auszulegen, mit Ausnahme, wenn ein Begriff oder eine Formulierung oben ausdrücklich definiert ist. Verschiedene andere Ausführungsformen und verschiedene Änderungen und Modifikationen an der/den offenbarte/n Ausführungsform(en) werden dem Fachmann offensichtlich. Alle anderen derartigen Ausführungsformen, Änderungen und Abwandlungen sind dazu bestimmt, innerhalb des Schutzumfangs der angefügten Ansprüche zu liegen.
Wie in dieser Beschreibung und den Ansprüchen verwendet ist, sind die Begriffe ”z. B.”, ”beispielsweise”, ”zum Beispiel”, ”wie” und ”ähnlich” sowie die Verben ”umfassend”, ”mit”, ”einschließlich” und ihre anderen Verbformen, wenn sie in Verbindung mit einer Auflistung einer oder mehrerer Komponenten oder anderen Objekte verwendet sind, jeweils als mit offenem Ende auszulegen, was bedeutet, dass die Auflistung nicht so zu betrachten ist, dass sie andere zusätzliche Komponenten oder Objekte ausschließt. Andere Begriffe sind unter Verwendung ihrer breitesten vernünftigen Bedeutung auszulegen, sofern sie nicht in einem Kontext verwendet sind, der eine andere Interpretierung erfordert.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

WO 2011088053 [0005]

Claims

Mobile Stimmplattform zur Bereitstellung einer Nutzersprachschnittstelle zu computerbasierten Diensten unter Verwendung einer Mobilvorrichtung, die einen Prozessor, eine Kommunikationsschaltung, die Zugriff auf die computerbasierten Dienste bereitstellt, ein Betriebssystem und eine oder mehrere Anwendungen aufweist, die unter Verwendung des Betriebssystems betrieben werden und die einen oder mehrere der computerbasierten Dienste über die Kommunikationsschaltung verwenden, wobei die mobile Stimmplattform umfasst: zumindest ein nicht transientes digitales Speichermedium, das ein Programmmodul mit Computerbefehlen speichert, das bei Ausführung durch den Prozessor Spracherkennungsergebnisse empfängt, die Nutzersprache repräsentieren, die unter Verwendung automatisierter Spracherkennung verarbeitet worden ist, einen gewünschten computerbasierten Dienst auf Grundlage der Spracherkennungsergebnisse bestimmt, auf eine entfernt gespeicherte Dienstschnittstelle, die dem gewünschten Dienst zugeordnet ist, zugreift, den gewünschten Dienst unter Verwendung der Dienstschnittstelle auslöst, ein Dienstergebnis von dem gewünschten Dienst empfängt und eine textbasierte Dienstantwort zur Umwandlung in eine Sprachantwort zur Bereitstellung an den Nutzer vorsieht.
Mobile Stimmplattform nach Anspruch 1, wobei das Programmmodul eine Anwendungsausführungsmaschine für die Dienstschnittstelle, auf die das Programmmodul zugreift, aufweist.
Mobile Stimmplattform nach Anspruch 1, wobei die Mobilvorrichtung ein Mobiltelefon mit einer Kurzbereichsdrahtloskommunikationsschaltung und einer Zellulardrahtloskommunikationsschaltung umfasst, und wobei das Programmmodul die Spracherkennungsergebnisse auf Grundlage von Sprache, die an die Mobilvorrichtung über die Kurzbereichsdrahtloskommunikationsschaltung gesendet wird, empfängt, auf die Dienstschnittstelle über die Zellulardrahtloskommunikationsschaltung zugreift und die textbasierte Dienstantwort zur Umwandlung in Sprache sendet, bevor die Sprachantwort über die Kurzbereichsdrahtloskommunikationsschaltung gesendet wird.
Mobile Stimmplattform nach Anspruch 1, wobei das Programmmodul dazu dient, die Dienstschnittstelle zu verwenden, um eine Dienstanforderung an den gewünschten computerbasierten Dienst über eine Anwendungsprogrammierschnittstelle zu senden, die dem gewünschten computerbasierten Dienst zugeordnet ist.
Mobile Stimmplattform nach Anspruch 1, ferner mit einer Audionutzerschnittstelle zum Empfangen von Sprache von einem Nutzer.
Kommunikationssystem zur Kommunikation zwischen einer Mobilvorrichtung und einem oder mehreren Cloud-Diensten, umfassend: ein Zellular- oder Drahtloskommunikationssystem, das Drahtloskommunikationen zwischen einem oder mehreren computerbasierten Diensten und einer Mobilvorrichtung trägt, wobei die Mobilvorrichtung einen Prozessor, eine Kommunikationsschaltung, die einen Zugriff auf die computerbasierten Dienste bereitstellt, ein Betriebssystem, eine oder mehrere Anwendungen, die unter Verwendung des Betriebssystems betrieben werden und die ein oder mehrere der computerbasierten Dienste über die Kommunikationsschaltung und das Zellular- oder Drahtloskommunikationssystem verwenden, und eine mobile Stimmplattform zur Bereitstellung einer Nutzersprachschnittstelle zu computerbasierten Diensten unter Verwendung einer Vorrichtung umfasst, wobei die mobile Stimmplattform umfasst: zumindest ein nicht transientes digitales Speichermedium, das ein Programmmodul mit Computerbefehlen speichert, das bei Ausführung durch den Prozessor Spracherkennungsergebnisse, die eine Nutzersprache repräsentieren, die unter Verwendung automatisierter Spracherkennung verarbeitet worden ist, empfängt, einen gewünschten computerbasierten Dienst auf Grundlage der Spracherkennungsergebnisse bestimmt, auf eine entfernt gespeicherte Dienstschnittstelle, die dem gewünschten Dienst zugeordnet ist, zugreift, den gewünschten Dienst unter Verwendung der Dienstschnittstelle auslöst, ein Dienstergebnis von dem gewünschten Dienst empfängt und eine textbasierte Dienstantwort zur Umwandlung in eine Sprachantwort zur Bereitstellung an den Nutzer vorsieht.
Kommunikationssystem nach Anspruch 6, ferner mit einer Audionutzerschnittstelle zum Empfangen von Sprache von einem Nutzer.
Kommunikationssystem nach Anspruch 6, wobei das Programmmodul der Mobilfahrzeugplattform eine Anwendungsausführungsmaschine für die Dienstschnittstelle aufweist, auf die das Programmmodul zugreift.
Kommunikationssystem nach Anspruch 6, wobei die Mobilvorrichtung ein Mobiltelefon mit einer Kurzbereichsdrahtloskommunikationsschaltung und einer Zellulardrahtloskommunikationsschaltung umfasst, und wobei das Programmmodul die Spracherkennungsergebnisse auf Grundlage von Sprache, die an die Mobilvorrichtung über die Kurzbereichsdrahtloskommunikationsschaltung gesendet wird, empfängt, auf die Dienstschnittstelle über die Zellulardrahtloskommunikationsschaltung zugreift und die textbasierte Dienstantwort zur Umwandlung in Sprache sendet, bevor die Sprachantwort über die Kurzbereichsdrahtloskommunikationsschaltung gesendet wird.
Kommunikationssystem nach Anspruch 6, wobei das Programmmodul dazu dient, die Dienstschnittsstelle zu verwenden, um eine Dienstanforderung an den gewünschten computerbasierten Dienst über eine Anwendungsprogrammierschnittstelle, die dem gewünschten computerbasierten Dienst zugeordnet ist, zu senden.