DE102011011270B4 - Multimodales Eingabesystem für ein sprachbasiertes Menü und Content-Navigationsdienst - Google Patents
Multimodales Eingabesystem für ein sprachbasiertes Menü und Content-Navigationsdienst Download PDFInfo
- Publication number
- DE102011011270B4 DE102011011270B4 DE102011011270.7A DE102011011270A DE102011011270B4 DE 102011011270 B4 DE102011011270 B4 DE 102011011270B4 DE 102011011270 A DE102011011270 A DE 102011011270A DE 102011011270 B4 DE102011011270 B4 DE 102011011270B4
- Authority
- DE
- Germany
- Prior art keywords
- user
- speed
- selection list
- selection
- input device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Multimedia (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Sprachbasiertes Menü-Navigationssystem, welches umfasst:
eine Sprachmaschine, die eingerichtet ist, um einem Benutzer eine Auswahlliste aufzusagen, damit der Benutzer daraus wählt;
eine Eingabevorrichtung, die durch den Benutzer bedient wird und eingerichtet ist, um die Geschwindigkeit des Aufsagens der Auswahlliste in Ansprechen auf eine Bedienung durch den Benutzer zu erhöhen oder zu verringern; und
eine Komponente, die eingerichtet ist, um die von dem Benutzer ausgewählte Geschwindigkeit des Aufsagens der Auswahlliste zu überwachen und um die von dem Benutzer ausgewählte Geschwindigkeit zu einer Standardgeschwindigkeit zu machen, mit der zukünftige Auswahllisten aufgesagt werden;
dadurch gekennzeichnet , dass
die Geschwindigkeit des Aufsagens der Auswahlliste in Abhängigkeit der Geschwindigkeit, mit der der Benutzer durch die Auswahlliste navigiert, zu- oder abnimmt.
eine Sprachmaschine, die eingerichtet ist, um einem Benutzer eine Auswahlliste aufzusagen, damit der Benutzer daraus wählt;
eine Eingabevorrichtung, die durch den Benutzer bedient wird und eingerichtet ist, um die Geschwindigkeit des Aufsagens der Auswahlliste in Ansprechen auf eine Bedienung durch den Benutzer zu erhöhen oder zu verringern; und
eine Komponente, die eingerichtet ist, um die von dem Benutzer ausgewählte Geschwindigkeit des Aufsagens der Auswahlliste zu überwachen und um die von dem Benutzer ausgewählte Geschwindigkeit zu einer Standardgeschwindigkeit zu machen, mit der zukünftige Auswahllisten aufgesagt werden;
dadurch gekennzeichnet , dass
die Geschwindigkeit des Aufsagens der Auswahlliste in Abhängigkeit der Geschwindigkeit, mit der der Benutzer durch die Auswahlliste navigiert, zu- oder abnimmt.
Description
- Hintergrund der Erfindung
- Gebiet der Erfindung
- Diese Erfindung betrifft allgemein ein System zur Bereitstellung einer sprachbedienten Task-Auswahl und im Spezielleren ein System zur Bereitstellung einer sprachbedienten Task-Auswahl für einen Benutzer in einem Fahrzeug, wobei der Benutzer eine Eingabevorrichtung wie z. B. ein Scrollrad bedient, und eine Sprachantwort jeden wählbaren Task aus einer Liste von Tasks identifiziert, wenn das Scrollrad gedreht wird, und wobei die Geschwindigkeit der Sprachantwort in Abhängigkeit davon, wie schnell das Scrollrad gedreht wird, zunimmt oder abnimmt.
- Ein sprachbasiertes Menü-Navigationssystem gemäß dem Oberbegriff des Anspruchs 1 ist beispielsweise aus der
US 2004 / 0 186 713 A1 - Erläuterung des Standes der Technik
- Moderne Fahrzeuge umfassen oft viele und verschiedene Systeme, die für Fahrzeuginsassenkomfort sorgen, wie z. B. Mobiltelefone, Internetzugang, digitale Musikdateien, Turn-by-Turn Navigation, Wi-Fi etc. Auf diese Systeme kann mitunter über eine einzige Mensch/Maschine-Schnittstelle (HMI von human-machine interface) zugegriffen werden, um es dem Benutzer zu gestatten, die verschiedenen Systeme einfacher zu wählen und zu steuern.
- Studien haben gezeigt, dass 70-80 % aller Fahrzeugfahrten nur von einem Fahrer durchgeführt werden. Somit ist der Fahrer vom Standpunkt der HMI der einzige, wichtigste Insasse eines Fahrzeuges. Eine Fahrzeug-HMI muss typischerweise anders sein als andere HMIs, da der Fahrer des Fahrzeuges bei normalen Fahrgeschwindigkeiten nicht wesentlich abgelenkt werden darf und insbesondere ein/e Fahrer/in, außer für kurze Zeitspannen, nicht seine/ihre Augen von der Straße und Hände von dem Lenkrad lassen darf. Die Ablenkungsschwelle für fahrzeugbasierte Systeme ist typischerweise jene, dass das System den Fahrer nicht mehr ablenken darf als das Fahrzeugradio. Dies schließt den Einsatz von HMI-Vorrichtungen aus, die bildschirmbasierte Benutzerschnittstellen verwenden. Daher sind HMIs, die verwendet werden können, wenn das Fahrzeug steht, z. B. bildschirmbasierte Internetbrowser, für Fahrer während eines Betriebes des Fahrzeuges beinahe irrelevant.
- Spracherkennungssysteme wurden in Fahrzeugen verwendet, um bei dem Problem der Fahrerablenkung anzusetzen, wobei das System den Fahrer hörbar auffordert und der Fahrer die Fragen beantwortet, um Tasks zu identifizieren, die der Fahrer ausgeführt haben möchte. Eine brauchbare HMI für Fahrer ist eine, die es dem Fahrer ermöglicht, bei normalen Fahrgeschwindigkeiten effektiv auf Information zuzugreifen und diese zu beschaffen. Sprach/Sprech-HMIs waren beliebt, da sie es Fahrern gestatten, ohne die Ablenkung von bildschirmbasierten Schnittstellen auf Information zuzugreifen und eine Funktionalität zu steuern. Die Spracherkennung selbst funktioniert gut, wenn die möglichen Antworten auf wenige mögliche Auswahlen beschränkt sein können, aber eine Diktiererkennung oder viele Auswahlen sind sehr unzuverlässig, insbesondere, wenn ein begrenzter Kontext vorhanden ist, wie z. B. beim Eingeben kurzer Phrasen in ein Suchfeld. Allerdings kann ein/e geräuschvolle/r Umgebung und Fahrgastraum, insbesondere bei hohen Fahrzeuggeschwindigkeiten, wo sie langsamer zu navigieren sind als bildschirmbasierte Benutzerschnittstellen und nicht in der Lage sind, so viel Information zu transportieren etc., die effiziente Verwendung von Spracherkennungssystemen verhindern, da der Benutzer verschiedene Befehle wie z. B. eine Telefonnummer unter Umständen wiederholen muss.
- Eine HMI in Verbindung mit Spracherkennungssystemen, die in der Industrie verwendet wurde, ist ein Scrollrad, welches es dem Fahrzeugbediener gestattet, durch ein Menü von Tasks zu scrollen, die in dem Fahrzeug zur Verfügung stehen, wie z. B. Anrufen, Wählen, Turn-by-Turn, Navigationssuche, eine virtuelle Betreuung etc., und den verschiedenen Systemen wie z. B. einem Mobiltelefon, Navigationssystemen, dem Internet etc. zugeordnet sind. Eine Sprachbedienung identifiziert jeden Task, während der Benutzer mithilfe des Scrollrades durch die Liste für Tasks scrollt. Der Benutzer kann den Task bei einer speziellen Eingabebedienung wählen, entweder indem er entweder das Scrollrad drückt oder einen separaten Knopf drückt.
- Wenn ein Benutzer mit einem speziellen Taskauswahlsystem vertraut ist und weiß, das er einen Task gegen Ende der Taskliste wählen möchte, dann kann er das Scrollrad schneller drehen, um viele der Tasks zu überspringen, bevor er zu dem gelangt, den er wählen möchte. In derzeitigen Systemen werden die Sprachbedienungen abgeschnitten, wenn das Scrollrad schneller gedreht wird, da der Benutzer zu der nächsten Auswahl gescrollt hat, bevor die Sprachbedienung in der Lage ist, die aktuelle Auswahl zu identifizieren.
- Sobald ein Benutzer eine Auswahl auf einer oberen Ebene wählt, kann diese Auswahl weitere Auswahlen aufweisen, die gewählt werden müssen, was von Bedeutung sein könnte. Wenn z. B. eine der Auswahlen ein MP3-Player ist, dann kann es erforderlich sein, dass der Benutzer, sobald diese Auswahl getroffen ist, ein Lied aus der Liederliste des MP3-Players auswählen muss, das eines von vielen Liedern sein kann.
- Es gibt viele verschiedene Arten von sprachangesteuerten Diensten auf dem Markt. Zum Beispiel stellt das Wählen von 411 dem Benutzer ein automatisches System zur Verfügung, das Information sammelt, und gibt diese Information dann an einen aktiven Anwender weiter. Das Wählen von 777-Film erfolgt vollständig automatisch und schickt den Benutzer durch ein durch Keypad-DTMF-Signale und Stimmerkennung gesteuertes Navigationssystem mit einem vielfach abgestuften Menü. Diese Dienste benötigen eine sprachaktivierte Verbindung zu einem Netzwerk-Server wie z. B. eine VolP oder einer leitungsvermittelte Verbindung. Einige dieser Systeme verwenden VoiceXML, SALT und andere Industriestandards zum Beschreiben des Menüaufbaus. Abgesehen von der Spracherkennung ist jedoch DTMF das einzige Verfahren zum Senden von Daten in diesen Systemen.
- In den Druckschriften
DE 100 58 228 A1 ,US 2006 / 0 031 073 A1 EP 2 051 241 A1 ,DE 10 2004 061 806 A1 ,DE 103 38 512 A1 ,US 2008 / 0 205 601 A1 DE 10 2006 062 028 A1 sind verschiedenste Sprachmaschinen beschrieben. - Bezüglich des weitergehenden Standes der Technik sei an dieser Stelle auf die Druckschriften
US 2008 / 0 033 994 A1 US 5 396 577 A1 undUS 2007 / 0 168 115 A1 - Der Erfindung liegt die Aufgabe zu Grunde, ein gattungsgemäßes sprachbasiertes Menü-Navigationssystem dahingehend weiter zu entwickeln, dass es möglichst intuitiv bedient werden kann.
- Zusammenfassung der Erfindung
- Diese Aufgabe wird mit einem sprachbasierten Menü-Navigationssystem mit den Merkmalen des Anspruchs 1 gelöst.
- In Übereinstimmung mit den Lehren der vorliegenden Erfindung wird ein System zur Bereitstellung von Sprachbedienungen offenbart, die Task-Auswahlen aus einer Task-Auswahlliste in einem Fahrzeug identifizieren, wobei der Benutzer eine Eingabevorrichtung wie z. B. ein Scrollrad verwendet, um einen speziellen Task zu aktivieren, und wobei die Geschwindigkeit der Sprachbedienung in Abhängigkeit davon, wie schnell der Benutzer das Scrollrad dreht, zunimmt oder abnimmt. Das System umfasst eine Komponente, um die von dem Benutzer ausgewählte Geschwindigkeit des Aufsagens der Auswahlliste zu überwachen und um die von dem Benutzer ausgewählte Geschwindigkeit zu einer Standardgeschwindigkeit zu machen, mit der zukünftige Auswahllisten aufgesagt werden.
- Weitere Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung und den beiliegenden Ansprüchen in Verbindung mit den beigefügten Zeichnungen offensichtlich.
- Figurenliste
-
-
1 ist ein schematisches Blockdiagramm eines Systems zur Bereitstellung einer sprachbedienten Task-Auswahl in einem Fahrzeug. - Detaillierte Beschreibung der Ausführungsformen
- Die nachfolgende Erläuterung der Ausführungsformen der Erfindung, die auf ein System zum Erhöhen und Verringern der Geschwindigkeit einer Sprachbedienung in Ansprechen auf die Eingabegeschwindigkeit einer Eingabevorrichtung abzielt, ist rein beispielhaft. Das System der Erfindung findet z. B. besondere Anwendung für Fahrzeug-HMI-Vorrichtungen. Wie Fachleute jedoch einsehen werden, wird das System weitere Anwendungen finden.
- Die vorliegende Erfindung schlägt eine multimodale audiobasierte HMI für Fahrer von Fahrzeugen vor. Wenngleich vorwiegend von einer Fahrzeugumgebung aus beschrieben, kann die vorliegende Erfindung auch auf jede beliebige Umgebung oder Anwendung angewendet werden, wo der Benutzer nicht allzu lange auf einen Bildschirm schauen kann, wie z. B. beim Gehen auf dem Gehsteig eines geschäftigen Stadtzentrums, beim Fahrrad fahren etc., und kann in weiteren Endgeräten wie Kopfhörern verwendet werden. Die multimodale audiobasierte HMI ist in der Lage, jedes für die hierin beschriebenen Zwecke geeignete Fahrzeugsystem wie z. B. ein Mobiltelefon, ein digitales Musikabspielgerät wie z. B. einen MP3-Player, einen Internet-Browser, ein Fahrzeugnavigationssystem etc. zu steuern.
- Die vorliegende Erfindung kann in zwei Hauptkomponenten unterteilt werden, und zwar ein Endgerät, das die Komponenten umfasst, die sich in dem Fahrzeug befinden, und ein Netzwerk, das die Komponenten umfasst, die sich in dem Dienstbereitstellsystem befinden.
-
1 ist ein schematisches Blockdiagramm eines Systems10 zur Bereitstellung einer sprachbedienten Task-Auswahl in einem Fahrzeug. Das System10 kann ein Endgerät12 des oben angeführten Typs, das sich in dem Fahrzeug befindet, und ein Netzwerk14 umfassen. Ein Datenübertragungskanal28 verbindet das Endgerät12 und das Netzwerk14 . Das Endgerät12 kann ein Mikrofon16 , einen Lautsprecher18 , eine Spracherkennungsmaschine20 , eine Sprachmaschine42 , die eine Text-Sprache-maschine (text-to-speech engine), ein Audiodateien-Abspielgerät oder beides sein könnte, einen Prozessor22 , eine Kommunikationskomponente24 für Sprache und Daten und eine sekundäre Eingabevorrichtung26 umfassen. Die sekundäre Eingabevorrichtung26 ist allgemein eine taktile Vorrichtung wie z. B. ein Touchpad, ein Scrollrad, ein Knopf oder ein Keypad, kann aber auch Gebärden- oder Biosteuerungen umfassen. Das Endgerät12 kann auch einen Sprach-Browser24 und ein Headup-Display (HUD)30 oder einen Bildschirm mit oder ohne Berührungseingabe umfassen. Das Netzwerk14 kann eine Modembank32 , eine Spracherkennungsmaschine34 , einen Browser36 , ein Anwendungsserversystem38 , Verbindungen40 zu Servern Dritter und eine Sprachmaschine46 , die eine Text-Sprache-Maschine, ein Audiodateien-Abspielgerät oder beides sein könnte, umfassen. Wenngleich nicht speziell gezeigt, kann jedes Element in dem Netzwerk14 mit einem gemeinsamen Kommunikations-Bus gekoppelt sein, sodass sich die verschiedenen Elemente miteinander unterhalten können. Die nachfolgende Tabelle 1 zeigt eine Menüliste von möglichen Befehls-Items wie z. B. das Befehls-Item1 : „Radio“, das Befehls-Item2 : „Climate“ und das Befehls-Item3 : „Auxiliary“. Die Tabelle 2 darunter zeigt Beispiele von Software-Befehlen für die Befehls-Items. Tabelle 1Menüliste Befehls-Item 1: „Radio“ Befehls-Item 2: „Climate“ Befehls-Item 3: „Auxiliary“ <menu id=„mainmenu“> <prompt> Which of the following commands do you want? </prompt> <choice next=„coupons.vxml“ short=„coupons“> <audio src=„coupons.wav“ short=„coupons_s.wnv“> Daily Coupons </audio> </choice> <choice next=„radio.vxml“ short=„radio“> <audio src=„radio.wav“ short=„radio_s.wav“> Radio Control </audio> </choice> <choice next=„climate.vxml“ short=„climate“> <audio src=„climate.wav“ short=„climate_s.wav“> Climate Control </audio> </choice> <choice next=„aux.vxml“ short=„aux“> <audio src=„aux.wav“ short=„aux_s.wav“> Auxiliary Input Device Control </audio> </choice> <imgad src=„chevy.jpg“> </menu> - Eine Sprachinteraktionssitzung kann entweder durch das Endgerät
12 , das Netzwerk14 oder den Benutzer initiiert werden. Das Endgerät12 kann eine Sitzung beginnen, indem es dem Benutzer eine Frage stellt. Der Benutzer kann dann über Sprache oder die Eingabevorrichtung26 antworten. Das Netzwerk14 initiiert eine Sitzung, indem es mit dem Endgerät12 kommuniziert und dieses Endgerät10 ersucht, den Benutzer dazu aufzufordern. Der Benutzer kann eine Sitzung initiieren, indem er die Eingabevorrichtung26 wie z. B. einen Knopf, ein Touchpad oder ein Scrollrad aktiviert. Das Endgerät12 kann eine vorerstellte Liste möglicher Befehle, aus der der Benutzer wählen kann (z. B. Menü-Items wie „Radio“, „Climate“ und „Auxiliary“), aufsagen, oder es kann dem Benutzer eine Frage mit offenem Ende stellen und die Antwort unter Verwendung einer natürlichen Sprachen-Spracherkennung und/oder einer Spracherkennungsgrammatik verarbeiten. Wenn das Endgerät12 dem Benutzer eine Auswahl aus einem beschränkten Satz von Befehlen geben möchte, kann das Endgerät12 die möglichen Befehle als eine Menüliste kommunizieren. Der Benutzer kann warten, um alle Items auf der Menüliste zu hören und dann eine Auswahl vornehmen oder der Benutzer kann die sekundäre Eingabevorrichtung26 verwenden, um sich schnell vorwärts oder rückwärts durch die Menü-Items zu bewegen und das gewünschte Befehls-Item zu wählen. Die sekundäre Eingabevorrichtung26 kann ein Scrollrad, ein Touchpad, eine Wählscheibe, Auf/Ab- oder Links/Rechts-Knöpfe oder jede beliebige andere für die hierin beschriebenen Zwecke geeignete Eingabevorrichtung sein. Der Benutzer kann den gewünschten Befehl sprechen oder die sekundäre Eingabevorrichtung26 verwenden, um eine Auswahl zu treffen. Der Benutzer kann beispielsweise einen Knopf drücken, wenn das gewünschte Menü-Item aufgesagt wird. Das Auswahlverfahren kann ein Knopf, ein Tippen auf einen Berührungssensor oder ein Anschlag auf einer Tastatur sein. - Falls die Eingabevorrichtung
26 aktiviert ist, wenn ein Menü-Item aus Tabelle 1 dem Benutzer aufgesagt wird, wird der entsprechende Befehl aus Tabelle 2 ausgewählt, sobald ein Item ausgewählt ist. Das Endgerät12 kann zwischen Menü-Items pausieren, um dem Benutzer eine Möglichkeit zu geben, den Befehl auszuwählen, nachdem er den gesamten aufgesagten Befehl gehört hat. Alternativ kann das Aufsagen der Menüliste komplett durch die Aktivierung der Eingabevorrichtung26 bestimmt sein. Wenn der Benutzer die Eingabevorrichtung26 aktiviert, sagt das Endgerät12 den nächsten Befehl in der Menüliste auf. Wenn der Benutzer die Vorrichtung26 nicht aktiviert, tut das Endgerät12 entweder nichts oder fährt fort, den aktuellen Befehl aufzusagen, zu dem der Benutzer navigiert ist. Wenngleich diese Technik des Aufsagens von Menü-Items vollständig auf der Vorrichtung26 basiert, wo eine Aktivierung dem Benutzer die endgültige Kontrolle gibt, kann sie gegebenenfalls mit Laienbenutzern nicht gut funktionieren, da Laienbenutzer unter Umständen nicht realisieren, dass sie die Vorrichtung26 aktivieren müssen, um zu dem nächsten Menü-Item zu gehen. Es kann am besten sein, das Aufsagen der gesamten Liste an einem bestimmten Punkt wieder zu beginnen, selbst wenn es keine Vorrichtungsaktivierung gibt. Sobald ein Item gewählt ist, kann das Endgerät 12 das gewählte Item aufsagen und den Benutzer um eine Bestätigung bitten. Der Benutzer kann die sekundäre Eingabevorrichtung26 verwenden, um das Item abzulehnen, z. B. einen Löschknopf drücken, oder das Item bestätigen, z. B. einen Eingabeknopf auswählen. Auf diese Weise ist der Benutzer in der Lage, schnell zu navigieren und eine Auswahl zu treffen, indem er ein sprachbasiertes Befehlsmenüsystem verwendet. - Das Scrollen durch die Menü-Items kann auf verschiedene Weise erfolgen. Es kann die Eingabevorrichtung
26 wie z. B. Knöpfe, ein Scrollrad oder andere Mechanismen verwendet werden, um das gerade aufgesagte Menü-Item zu unterbrechen und weiter zu dem nächsten Item oder zurück zu dem vorhergehenden Item zu gehen. Dies gestattet es dem Benutzer, schnell durch die Item-Liste zu kommen. Allerdings schneiden solche Techniken das gerade aufgesagte Item ab, was den Benutzer im Allgemeinen dazu zwingt, die ganzen Item-Bezeichnung zu hören, bevor der Benutzer bestimmen kann, ob er das nächste Item anklickt. Alternativ kann die Eingabevorrichtung26 verwendet werden, um die Geschwindigkeit zu erhöhen, mit der das Endgerät12 die Menü-Items aufsagt, genau wie durch Beschleunigen einer Vinyl-Schallplatte auf einem Drehteller. Die Sprache kann mithilfe gut bekannter Techniken verarbeitet werden, um jegliche Änderungen in der Stimmlage zu verhindern (ohne die eine Stimme wie die eines Eichhörnchens klingen kann, wenn sie zu schnell abgespielt wird). Das Endgerät 12 kann auch eine abgekürzte Beschreibung des Befehls für eine schnellere Navigation aufsagen. Die Befehlsliste kann zwei oder mehr Beschreibungen für jedes Menü-Item, eine für eine schnelle Navigation und eine für eine langsame Navigation, aufweisen. Zum Rückwärts-Abspielen kann das Endgerät 12, anstatt die Wörter rückwärts aufzusagen, was unverständlich ist, jedes Item in umgekehrter Reihenfolge mit einer höheren Geschwindigkeit aufsagen. Wenn die Vorwärtsrichtung der Befehlsliste z. B. „Radio, Climate, Auxiliary“ ist, würde das Rückwärtsabspielen „Auxiliary, Climate, Radio“ aufsagen. Das Endgerät12 besitzt die Fähigkeit, die Geschwindigkeit zu überwachen, die der Benutzer wählt, um zu bestimmen, mit welcher Geschwindigkeit der Benutzer am zufriedensten ist, und die Geschwindigkeit zu der Standardgeschwindigkeit zu machen, die zu verwenden ist, wenn zukünftige Menüauswahlen aufgesagt werden. Das Endgerät 12 kann voraufgezeichnete Audioclips zum Aufsagen von Menü-Items verwenden und je nach der Geschwindigkeit, die der Benutzer zum Aufsagen der Menü-Items wünscht, mehrere Audioclipversionen vorrätig haben. Alternativ kann das Endgerät 12 einen einzigen Audioclip verwenden und ihn langsamer oder schneller verarbeiten oder das Endgerät12 kann eine TTS-Maschine verwenden, um das Audio aus dem Text zu erzeugen. Die TTS-Maschine kann auch die Sprache schneller oder langsamer eingeben, je nachdem, wie schnell der Benutzer die Eingabevorrichtung26 bedient. - Der Browser
24 , manchmal als ein Übersetzer bezeichnet, umfasst die Software, welche die Menünavigation steuert. Der Browser24 kann eine Datei wie z. B. eine VoiceXML-Datei oder eine beliebige andere markierte Datei lesen, die dem Browser24 die Menü-Items nennt, die dem Benutzer aufgesagt werden sollen. Der Browser24 kann eine Funktionalität besitzen, die es dem Benutzer ermöglicht, Auswahlen mithilfe einer Sprachantwort oder der Eingabevorrichtung26 zu bestätigen oder abzulehnen. Wenn der Benutzer z. B. die aufgesagte Liste von Befehlsauswahlen hört, kann der Benutzer den gewünschten Befehl sprechen und der Browser24 wird die Spracherkennung verwenden, um den Befehl zu bestimmen, den der Benutzer gesprochen hat, und den Befehl ausführen. Wenn sich der Browser24 im Endgerät12 befindet, kann das Endgerät12 Dateien von dem Netzwerk-Server38 über die Datenübertragungsverbindung28 herunterladen. Die Dateien können dann von dem Browser24 übersetzt werden und die Menüoptionen können dem Benutzer aufgesagt werden. Oder die Datei kann bereits lokal in dem Endgerät 12 gespeichert sein, sodass kein Herunterladen von dem Netzwerk-Server38 notwendig ist. Die Datei besteht aus einem Text, der dem Benutzer aufgesagt wird, wie auch aus Auszeichnungssprache-Tags, die dem Browser24 sagen, wie der Text zu übersetzen ist. Einige Tags werden die verschiedenen Items in einem Befehlsmenü (z. B. - Item 1, Item 2 etc.) skizzieren. Andere Tags werden dem Browser24 sagen, wie der Text zu präsentieren oder aufzusagen ist. Es können beispielsweise Sprachbedienungen mit variabler Geschwindigkeit in speziellen Tags kodiert sein und durch den Browser24 übersetzt werden. Diese Tags können verwendet werden, um anzugeben, ob eine TTS auf eine Textfolge zum Aufsagen eines Menü-Items oder eine Audiodatei verwendet werden soll. Die Tags können auch skizzieren, welche Audiodateien zur schnellen Aktivierung der Eingabevorrichtung26 (z. B. schnelles Scrollen) verwendet werden sollen und welche zur langsamen Aktivierung verwendet werden sollen. Wenn die Vorrichtung26 schnell aktiviert wird, wird der Browser24 die kürzere Audiodatei zu verwenden wissen. - Wenn sich der Browser
36 in dem Netzwerk14 befindet, tätigt das Endgerät12 einen Sprachaufruf an die Modembank32 . Die Modembank32 übergibt die Sitzung an den Browser36 , der die Daten aus dem Anwendungsserver38 liest. Der Browser36 sagt dann die Menü-Items auf und antwortet dem Endgerät12 über die Sprachverbindung durch die Modembank32 . Das Endgerät12 kann eine bandinterne Datenübertragung verwenden, um über die Sprachverbindung die sekundären Eingänge zu kommunizieren. Diese bandinterne Kommunikation kann/können klangbasiert wie z. B. DTMF, modulierte Daten ähnlich dem von Airbiquity verwendeten System, oder ein Sprach/Daten-Übertragungsmodus wie in dem GSM-System vorhanden, sein. Das Netzwerk14 kann in der Lage sein, die Sprache aus dem Endgerät 12 mithilfe seiner eigenen Erkennungsmaschine zu erkennen und die bandinternen Daten aus dem Endgerät12 gleichzeitig zu decodieren. Eingegebene Daten können auch zwischen dem Endgerät12 und dem Netzwerk14 unter Verwendung von Außerbandverfahren wie z. B. einer separaten Paketdatenverbindung kommuniziert werden, die das Netzwerk14 als zu einem Endgerät12 gehörend erkennt, mit dem es bereits eine Sprachsitzung hat, wobei die Verwendung von bandinternen Daten jedoch in einigen Fällen zu bevorzugen ist, da sie keine separate Datenverbindung benötigt. Die sekundären Eingaben können verwendet werden, um die Geschwindigkeit zu ändern, mit der die Befehlsliste über die Sprachverbindung aufgesagt wird, oder die Menü-Items rückwärts aufzusagen. Die sekundären Eingänge können auch verwendet werden, um ein Menü-Item ähnlich dem oben beschriebenen Betrieb des Endgeräts12 auszuwählen. - Wenn sich der Browser
24 in dem Endgerät12 befindet, kann das Endgerät12 die HMI mithilfe eines optischen Bildschirmes wie z. B. eines HUD30 und/oder eines Konsolen-Bildschirms vergrößern. Das Endgerät12 kann die Menü-Items aufsagen und gleichzeitig die Items auf dem optischen Bildschirm30 anzeigen. Der Benutzer kann einen Touch-Screen verwenden, um durch Auswählen von Bildschirmmenü-Items zu antworten. Der Benutzer kann auch mit der sekundären Eingabevorrichtung oder mit einer Sprachantwort antworten. - Die Technik der Verwendung von sekundären Eingabesignalen zum Vorwärts- und Rückwärtsbewegen durch Audiomenüs kann auch auf die Navigation langer Sprachpassagen wie z. B. Hörbüchern oder TTS-Rendering eines textbasierten eBooks angewendet werden. Dies gestattet es dem Benutzer, Abschnitte einfach zu überspringen oder Abschnitten „wieder zuzuhören“. Die Technik kann auch verwendet werden, um durch eine Liste zu navigieren, um zu bestätigen, was der Benutzer gesagt hat. Wenn der Benutzer z. B. „Telefon“ sagt, könnte der Spracherkenner meinen, der Benutzer sagte entweder „Telefon“ oder „deli phone“. Das Endgerät
12 kann den Benutzer fragen „Sagten Sie Telefon oder deli phone...“. Der Benutzer kann die sekundäre Eingabevorrichtung26 verwenden, um durch die Optionen zu navigieren und die Option auszuwählen, die er gemeint hat. Ebenso kann das Spracherkennungssystem automatisch eine Liste von Auswahlen erstellen, von denen es meint, dass sie der Benutzer sie gesprochen hat, und der Benutzer kann mittels Sprache oder mittels sekundärer Eingabe durch die Auswahlen navigieren. Wenn der Benutzer z. B. sagt „Kaffe von Starbucks bestellen“, kann das Spracherkennungssystem dann antworten: „Möchten Sie1 ) Tee von Starbucks bestellen, 2) Kaffee von Starbucks bestellen oder3 ) Kaffee von Seattle's Best bestellen?“ Der Benutzer kann dann wählen, welche Option er möchte. - Das Einbauen von Werbung in einen Voice-Stream ist nicht so einfach wie mit einer bildschirmbasierten Suche. Mit einem Bildschirm können Benutzer wählen, Werbungen in einer seitlichen Spalte zu ignorieren. Sie können eine Werbung nicht ignorieren, die in einen Audio-Stream eingebaut ist, sofern sie nicht zu einem Schnellvorlauf in der Lage sind. Eine Technik besteht darin, die Werbung in dem optionalen Bildschirm anzuordnen, während der Voice-Stream spielt. Die Datei, die von dem Endgerät
12 verwendet wird, um das Audio aufzusagen, kann spezielle Werbetags, siehe „imgad“-Tag in Tabelle 2), aufweisen, die Text, Bilder und andere Elemente in der Datei als Teil einer sichtbaren Werbung hervorheben, die nur auf dem Bildschirm oder HUD30 angezeigt werden soll. Oder der Audio-Stream, der das Aufsagen einer Befehlsliste repräsentiert, kann eine kurze Anzeige umfassen, die sagt: „Dieser Service wird Ihnen präsentiert von McDonalds“. Das Endgerät 12 kann es dem Benutzer gestatten, die Audio- oder optische Werbung auszuwählen, um mehr Information zu erhalten. Die Werbung kann auch als ein zusätzliches Menü-Item erscheinen, das der Benutzer auswählen kann, wenn sie wählen (siehe Daily Coupons in Tabelle 2). Die genaue Platzierung der Werbung in der Item-Liste kann variieren und der eigentliche Inhalt der Werbung kann mithilfe einer Advanced-Ad-Placement-Maschine gewählt werden, die verschiedene Statistiken wie z. B. den Kontext der Befehle, die Vorlieben des Benutzers, den Aufenthaltsort des Benutzers, das Zielprofil der Werbung, Benutzergewohnheiten, Werbeeinnahmen aus der Werbung etc. berücksichtigt.
Claims (9)
- Sprachbasiertes Menü-Navigationssystem, welches umfasst: eine Sprachmaschine, die eingerichtet ist, um einem Benutzer eine Auswahlliste aufzusagen, damit der Benutzer daraus wählt; eine Eingabevorrichtung, die durch den Benutzer bedient wird und eingerichtet ist, um die Geschwindigkeit des Aufsagens der Auswahlliste in Ansprechen auf eine Bedienung durch den Benutzer zu erhöhen oder zu verringern; und eine Komponente, die eingerichtet ist, um die von dem Benutzer ausgewählte Geschwindigkeit des Aufsagens der Auswahlliste zu überwachen und um die von dem Benutzer ausgewählte Geschwindigkeit zu einer Standardgeschwindigkeit zu machen, mit der zukünftige Auswahllisten aufgesagt werden; dadurch gekennzeichnet , dass die Geschwindigkeit des Aufsagens der Auswahlliste in Abhängigkeit der Geschwindigkeit, mit der der Benutzer durch die Auswahlliste navigiert, zu- oder abnimmt.
- System nach
Anspruch 1 , wobei die Sprachmaschine eine Text-Sprache-Maschine ist, die die Auswahlliste aus Textdaten aufsagt. - System nach
Anspruch 2 , wobei die Text-Sprache-Maschine auf der Basis der Benutzerbedienung der Eingabevorrichtung wählt, welcher Text zu verarbeiten und dem Benutzer aufzusagen ist, wenn zwei oder mehr Textbeschreibungen für jede Wahl in der Auswahlliste vorhanden sind. - System nach
Anspruch 1 , wobei die Sprachmaschine eine Audiodatei-Abspielvorrichtung ist und die Auswahlliste auf den von der Audiodatei-Abspielvorrichtung bereitgestellten Audiodateien basiert, wobei die Bedienung der Eingabevorrichtung die Geschwindigkeit des Abspielens der Audiodatei-Abspielvorrichtung ändert. - System nach
Anspruch 4 , wobei zwei oder mehr Audiodateien für jede Wahl in der Auswahlliste vorhanden sind, und wobei die Sprachmaschine auf der Basis der Benutzerbedienung der Eingabevorrichtung wählt, welche Audiodatei dem Benutzer aufzusagen ist. - System nach
Anspruch 1 , wobei die Sprachmaschine betreibbar ist, um die Auswahlliste in Vorwärts- oder Rückwärts-Reihenfolge und mit variierender Geschwindigkeit aufzusagen. - System nach
Anspruch 1 , wobei die Sprachmaschine einen Befehl bestimmt, den der Benutzer spricht, und eine Liste von Befehlen aufsagt, die der Benutzer vorgesehen haben kann, und wobei der Benutzer die Eingabevorrichtung verwendet, um den gewünschten Befehl zu wählen. - System nach
Anspruch 1 , wobei die Sprachmaschine die aufzusagende Auswahlliste auf der Basis des Inhalts einer Textdatei mit Auszeichnungs-Tags aufsagt, wobei die Auszeichnungs-Tags beschreiben, welcher Inhalt auf welche Aufsaggeschwindigkeit der Auswahlliste zutrifft. - System nach
Anspruch 8 , wobei die Auszeichnungs-Tags zwischen Audiodateien, die zum langsamen Aufsagen verwendet werden, und Audiodateien, die zum schnellen Aufsagen verwendet werden, differenzieren.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/712,130 | 2010-02-24 | ||
US12/712,130 US9665344B2 (en) | 2010-02-24 | 2010-02-24 | Multi-modal input system for a voice-based menu and content navigation service |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102011011270A1 DE102011011270A1 (de) | 2011-12-22 |
DE102011011270B4 true DE102011011270B4 (de) | 2019-01-03 |
Family
ID=44464341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102011011270.7A Active DE102011011270B4 (de) | 2010-02-24 | 2011-02-15 | Multimodales Eingabesystem für ein sprachbasiertes Menü und Content-Navigationsdienst |
Country Status (3)
Country | Link |
---|---|
US (1) | US9665344B2 (de) |
CN (1) | CN102163080B (de) |
DE (1) | DE102011011270B4 (de) |
Families Citing this family (171)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9715540B2 (en) * | 2010-06-24 | 2017-07-25 | International Business Machines Corporation | User driven audio content navigation |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
WO2013048880A1 (en) * | 2011-09-30 | 2013-04-04 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8788273B2 (en) * | 2012-02-15 | 2014-07-22 | Robbie Donald EDGAR | Method for quick scroll search using speech recognition |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR20140070861A (ko) * | 2012-11-28 | 2014-06-11 | 한국전자통신연구원 | 멀티 모달 hmi 제어 장치 및 방법 |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
CN103558917A (zh) * | 2013-11-11 | 2014-02-05 | 崔鹏 | 一种基于车载电子设备的盲操作方法及装置 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9626966B2 (en) * | 2013-12-18 | 2017-04-18 | Harman International Industries, Incorporated | Voice recognition query response systems and methods for generating query responses using information from a vehicle |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN105117097A (zh) * | 2015-07-29 | 2015-12-02 | 韦东 | 一种人机交互方法、系统以及智能设备 |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
CN106445452A (zh) * | 2016-09-14 | 2017-02-22 | 北京小米移动软件有限公司 | 导航语音重播方法及装置、电子设备 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
CN108304154B (zh) * | 2017-09-19 | 2021-11-05 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、服务器及存储介质 |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
JP6927331B2 (ja) * | 2017-12-18 | 2021-08-25 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
CN110874176B (zh) * | 2018-08-29 | 2024-03-29 | 斑马智行网络(香港)有限公司 | 交互方法、存储介质、操作系统和设备 |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
CN113794800B (zh) * | 2018-11-23 | 2022-08-26 | 华为技术有限公司 | 一种语音控制方法及电子设备 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CN111427529B (zh) * | 2019-01-09 | 2023-05-30 | 斑马智行网络(香港)有限公司 | 交互方法、装置、设备及存储介质 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US10930284B2 (en) * | 2019-04-11 | 2021-02-23 | Advanced New Technologies Co., Ltd. | Information processing system, method, device and equipment |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN112330353A (zh) * | 2020-09-22 | 2021-02-05 | 杭州浙启品牌管理有限公司 | 一种基于地图导航app广告的方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5396577A (en) | 1991-12-30 | 1995-03-07 | Sony Corporation | Speech synthesis apparatus for rapid speed reading |
DE10058228A1 (de) | 2000-11-20 | 2002-05-29 | Caa Ag | Sprachausgabevorrichtung und Verfahren zur Steuerung einer Sprachausgabe |
US20040186713A1 (en) | 2003-03-06 | 2004-09-23 | Gomas Steven W. | Content delivery and speech system and apparatus for the blind and print-handicapped |
DE10338512A1 (de) | 2003-08-22 | 2005-03-17 | Daimlerchrysler Ag | Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen |
US20060031073A1 (en) | 2004-08-05 | 2006-02-09 | International Business Machines Corp. | Personalized voice playback for screen reader |
DE102004061806A1 (de) | 2004-12-22 | 2006-07-06 | Robert Bosch Gmbh | Verfahren zur Ausgabe von Reiseführerinformationen in Fahrerinformationssystemen |
US20070168115A1 (en) | 2006-01-04 | 2007-07-19 | Kiyoshi Ikehara | Information Output Control Method for Car-Mounted Terminal Device, Its Program and the Car-Mounted Terminal Device |
US20080033994A1 (en) | 2006-08-07 | 2008-02-07 | Mci, Llc | Interactive voice controlled project management system |
DE102006062028A1 (de) | 2006-12-31 | 2008-07-03 | Wolfgang Bock | Fernbedienung für Vorrichtungen mit Sprachfunktionen |
US20080205601A1 (en) | 2007-01-25 | 2008-08-28 | Eliza Corporation | Systems and Techniques for Producing Spoken Voice Prompts |
EP2051241A1 (de) | 2007-10-17 | 2009-04-22 | Harman/Becker Automotive Systems GmbH | Sprachdialogsystem mit an den Benutzer angepasster Sprachausgabe |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6033224A (en) * | 1997-06-27 | 2000-03-07 | Kurzweil Educational Systems | Reading machine system for the blind having a dictionary |
US7483834B2 (en) * | 2001-07-18 | 2009-01-27 | Panasonic Corporation | Method and apparatus for audio navigation of an information appliance |
JP2003163745A (ja) * | 2001-11-28 | 2003-06-06 | Matsushita Electric Ind Co Ltd | 電話機、対話応答装置、対話応答端末および対話応答システム |
US20080120330A1 (en) * | 2005-04-07 | 2008-05-22 | Iofy Corporation | System and Method for Linking User Generated Data Pertaining to Sequential Content |
US20080141180A1 (en) * | 2005-04-07 | 2008-06-12 | Iofy Corporation | Apparatus and Method for Utilizing an Information Unit to Provide Navigation Features on a Device |
JP4961807B2 (ja) * | 2006-04-05 | 2012-06-27 | 株式会社Jvcケンウッド | 車載装置、音声情報提供システムおよび発話速度調整方法 |
US8549407B2 (en) * | 2007-12-05 | 2013-10-01 | Ebay Inc. | Multi-dimensional dynamic visual browsing |
US8447609B2 (en) * | 2008-12-31 | 2013-05-21 | Intel Corporation | Adjustment of temporal acoustical characteristics |
CN201408397Y (zh) * | 2009-05-12 | 2010-02-17 | 李厚敦 | 带声音提示菜单选择功能的单旋转按钮装置 |
-
2010
- 2010-02-24 US US12/712,130 patent/US9665344B2/en active Active
-
2011
- 2011-02-15 DE DE102011011270.7A patent/DE102011011270B4/de active Active
- 2011-02-24 CN CN201110049802.8A patent/CN102163080B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5396577A (en) | 1991-12-30 | 1995-03-07 | Sony Corporation | Speech synthesis apparatus for rapid speed reading |
DE10058228A1 (de) | 2000-11-20 | 2002-05-29 | Caa Ag | Sprachausgabevorrichtung und Verfahren zur Steuerung einer Sprachausgabe |
US20040186713A1 (en) | 2003-03-06 | 2004-09-23 | Gomas Steven W. | Content delivery and speech system and apparatus for the blind and print-handicapped |
DE10338512A1 (de) | 2003-08-22 | 2005-03-17 | Daimlerchrysler Ag | Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen |
US20060031073A1 (en) | 2004-08-05 | 2006-02-09 | International Business Machines Corp. | Personalized voice playback for screen reader |
DE102004061806A1 (de) | 2004-12-22 | 2006-07-06 | Robert Bosch Gmbh | Verfahren zur Ausgabe von Reiseführerinformationen in Fahrerinformationssystemen |
US20070168115A1 (en) | 2006-01-04 | 2007-07-19 | Kiyoshi Ikehara | Information Output Control Method for Car-Mounted Terminal Device, Its Program and the Car-Mounted Terminal Device |
US20080033994A1 (en) | 2006-08-07 | 2008-02-07 | Mci, Llc | Interactive voice controlled project management system |
DE102006062028A1 (de) | 2006-12-31 | 2008-07-03 | Wolfgang Bock | Fernbedienung für Vorrichtungen mit Sprachfunktionen |
US20080205601A1 (en) | 2007-01-25 | 2008-08-28 | Eliza Corporation | Systems and Techniques for Producing Spoken Voice Prompts |
EP2051241A1 (de) | 2007-10-17 | 2009-04-22 | Harman/Becker Automotive Systems GmbH | Sprachdialogsystem mit an den Benutzer angepasster Sprachausgabe |
Also Published As
Publication number | Publication date |
---|---|
US9665344B2 (en) | 2017-05-30 |
CN102163080A (zh) | 2011-08-24 |
CN102163080B (zh) | 2016-05-18 |
DE102011011270A1 (de) | 2011-12-22 |
US20110205149A1 (en) | 2011-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102011011270B4 (de) | Multimodales Eingabesystem für ein sprachbasiertes Menü und Content-Navigationsdienst | |
DE60033122T2 (de) | Benutzeroberfläche zur Text-zu-Sprache-Umsetzung | |
US7653544B2 (en) | Method and apparatus for website navigation by the visually impaired | |
DE60033518T2 (de) | Benutzerschnittstelle mit auditiver rückführung für ein handgerät | |
US20060262103A1 (en) | Human machine interface method and device for cellular telephone operation in automotive infotainment systems | |
DE102010036666A1 (de) | Intelligente Musikauswahl in Fahrzeugen | |
EP1435088B1 (de) | Dynamischer aufbau einer dialogsteuerung aus dialogobjekten | |
US20190034048A1 (en) | Unifying user-interface for multi-source media | |
CN104978015B (zh) | 具有语种自适用功能的导航系统及其控制方法 | |
DE102012200635A1 (de) | Verfahren und System zum Erzeugen einer Spracherkennungsdatenbank für ein mobiles Gertät unter Verwendung einer Bildverarbeitung und optischen Zeichenerkennung | |
EP1721245B1 (de) | Verfahren zur auswahl eines listeneintrags und informations- oder unterhaltungssystem, insbesondere für kraftfahrzeuge | |
EP3526790B1 (de) | Multimodaler dialog in einem kraftfahrzeug | |
US8583439B1 (en) | Enhanced interface for use with speech recognition | |
EP2026328B1 (de) | Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug | |
EP1041362A2 (de) | Eingabeverfahren in ein Fahrerinformationssystem | |
DE102009037658A1 (de) | Fahrzeug mit mehreren Funktionen und einer zugehörigen Auswahleinrichtung | |
DE102012210986B4 (de) | System mit einer Mobilkommunikationsvorrichtung und einem Fahrzeugstereosystem und Verfahren zum Betrieb des Systems | |
WO2008009429A1 (de) | Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe | |
DE10123823A1 (de) | System und Verfahren zur parallelen Darbietung von mehreren Audioinformationsquellen | |
EP1555608A1 (de) | Anordnung zur Sprachbedienung eines elektronischen Gerätes, insbesondere in einem Kraftfahrzeug | |
EP3583498A1 (de) | Verfahren und vorrichtung zur unterstützung des fahrers eines kraftfahrzeuges | |
DE102009058151B4 (de) | Verfahren zum Betreiben eines Sprachdialogsystems mit semantischer Bewertung und Sprachdialogsystem dazu | |
DE102013002680B3 (de) | Verfahren zum Betreiben einer Vorrichtung, insbesondere eines Kraftwagens oder eines mobilen Endgeräts, mittels Gestensteuerung sowie Vorrichtung | |
DE102008025532B4 (de) | Kommunikationssystem und Verfahren zum Durchführen einer Kommunikation zwischen einem Nutzer und einer Kommunikationseinrichtung | |
DE102004021454A1 (de) | Verfahren und Vorrichtung für einen akustischen Zugang zu einem Anwendungsrechner |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R082 | Change of representative |
Representative=s name: MANITZ, FINSTERWALD & PARTNER GBR, DE Representative=s name: MANITZ FINSTERWALD PATENTANWAELTE PARTMBB, DE |
|
R012 | Request for examination validly filed |
Effective date: 20110215 |
|
R016 | Response to examination communication | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G10L0015220000 Ipc: G10L0013020000 |
|
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final |