DE102013016913A1 - Sprachaktivierung für Mobilvorrichtungen - Google Patents

Sprachaktivierung für Mobilvorrichtungen Download PDF

Info

Publication number
DE102013016913A1
DE102013016913A1 DE102013016913.5A DE102013016913A DE102013016913A1 DE 102013016913 A1 DE102013016913 A1 DE 102013016913A1 DE 102013016913 A DE102013016913 A DE 102013016913A DE 102013016913 A1 DE102013016913 A1 DE 102013016913A1
Authority
DE
Germany
Prior art keywords
search
user
indication
user input
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102013016913.5A
Other languages
English (en)
Other versions
DE102013016913B4 (de
Inventor
Hoai Nguyen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of DE102013016913A1 publication Critical patent/DE102013016913A1/de
Application granted granted Critical
Publication of DE102013016913B4 publication Critical patent/DE102013016913B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Eine mobile computerisierte Vorrichtung empfängt eine Angabe einer ersten Benutzereingabe, die eine Knopfbetätigung umfasst, um eine Push-to-talk-Sprachsuche zu initiieren. Die Vorrichtung empfängt von dem Benutzer eine gesprochene Suchphrase, die einen oder mehrere Suchausdrücke umfasst, und empfängt eine Angabe einer zweiten Benutzereingabe, die das Lösen des betätigten Knopfes umfasst, was angibt, dass der Benutzer das Sprechen der Suchphrase beendet hat. Die Mobilvorrichtung erzeugt eine Suchanfrage unter Verwendung des einen oder der mehreren Suchausdrücke in der gesprochenen Suchphrase in Antwort auf das Empfangen der zweiten Benutzereingabe. In einem weiteren Beispiel zeigt die computerisierte Mobilvorrichtung eine oder mehrere wahrscheinliche Textsuchphrasen an, die aus der gesprochenen Suchphrase über eine Sprach-zu-Text-Umwandlung hergeleitet ist oder sind, empfängt eine Benutzereingabe, die angibt, welche der wahrscheinlichen Textsuchphrasen eine beabsichtigte Suchphrase ist, und verwendet die beabsichtigte Suchphrase als den einen oder die mehreren Suchausdrücke, die bei dem Erzeugen der Suchanfrage verwendet wird oder werden.

Description

  • Hintergrund
  • Eine große Vielfalt und eine große Anzahl von Anwendungen stehen für Smartphones, Tabletcomputer und andere mobile computerisierte Vorrichtungen zur Verfügung. Viele Smartphones und Tabletcomputer sind an einen oder mehrere Anwendungsläden oder -märkte angegliedert oder sind in der Lage, sich mit diesen zu verbinden, und umfassen oft mehrere vorinstallierte Anwendungen, die einen Basissatz von Funktionen (wie ein Telefon, eine Kamera, einen Webbrowser und ein Navigationswerkzeug) vorsehen.
  • Ein Benutzer kann allgemein mit derartigen Anwendungen interagieren durch Eingeben einer Eingabe bei einem Berührschirm (”Touchscreen”), der einer Anzeige überlagert oder mit dieser integriert ist. Zum Beispiel kann eine Vorrichtung erfassen, ob ein Finger einen Berührschirmknopf mit festem Bild drückt, und/oder das Vorhandensein und die Position eines Fingers über, nahe der oder auf einer größeren Berührschirmanzeige erfassen. Diese Funktionalität befähigt einen Benutzer, virtuelle oder angezeigte Knöpfe zu drücken, um Funktionen durchzuführen, wie das Wählen einer Telefonnummer unter Verwendung einer Telefonanwendung, das Navigieren unter Verwendung einer Anwendung mit dem Global Positioning System (GPS) oder das Eingeben von Text unter Verwendung einer virtuellen Tastatur (z. B. um eine Nachricht zu verfassen, durch Internet-Inhalt zu browsen, usw.).
  • Einige Smartphones setzen deshalb eine Sprachsuchfähigkeit ein, die den Benutzer befähigt, ein Eingabefeld auszuwählen, wie eine Textbox, einen Knopf zu berühren, um eine Spracheingabe zu initiieren, die gewünschte Textphrase zu sprechen und einen ”OK”-Knopf bei zutreffender Erkennung der Spracheingabe anzuklicken. Obwohl dies oft deutlich leichter sein kann als das Eintippen einer Nachricht unter Verwendung einer kleinen virtuellen Tastatur auf einer Berührschirmanzeige, erfordert dies noch immer eine deutliche Berührschirm-Interaktion und Aufmerksamkeit von einem Benutzer, um die Eingabe eines Textfeldes unter Verwendung von Spracheingabe zu vollenden. Dies kann während des Fahrens oder Gehens ablenkend sein, und beinhaltet genug Schritte, dass die Effizienz, die gegenüber einer Texteingabe unter Verwendung einer virtuellen Tastatur gewonnen wird, womöglich nicht deutlich ist.
  • Kurzer Abriss
  • In einem Beispiel empfängt eine computerisierte Mobilvorrichtung eine Angabe einer ersten Benutzereingabe, die eine Knopfbetätigung umfasst, wobei die Knopfbetätigung mit einem Spracheingabevorgang assoziiert ist. Ein Spracheingabevorgang wird in Antwort auf das Empfangen der ersten Benutzereingabe initiiert, und eine benutzergesprochene Suchphrase, die einen oder mehrere Suchausdrücke umfasst, wird unter Verwendung des Spracheingabevorgangs empfangen. Die computerisierte Mobilvorrichtung empfängt eine Angabe einer zweiten Benutzereingabe, die eine Beendigung der Knopfbetätigung umfasst, was die Vollendung der benutzergesprochenen Suchphrase angibt, und erzeugt eine Suchanfrage unter Verwendung des einen oder der mehreren Suchausdrücke in der benutzergesprochenen Suchphrase in Antwort auf das Empfangen der Angabe der zweiten Benutzereingabe.
  • In einem weiteren Beispiel zeigt die computerisierte Mobilvorrichtung eine oder mehrere wahrscheinliche Textsuchphrasen an, die aus der gesprochenen Suchphrase über eine Sprache-zu-Text-Umwandlung abgeleitet sind, empfängt eine Angabe einer Benutzerauswahleingabe, die angibt, welche der einen oder mehreren wahrscheinlichen Textsuchphrasen eine beabsichtigte Suchphrase ist, und verwendet die beabsichtigte Suchphrase als den einen oder die mehreren Suchausdrücke, die bei dem Erzeugen der Suchanfrage verwendet werden.
  • In einem weiteren Beispiel empfängt eine computerisierte Vorrichtung eine Angabe einer ersten Benutzereingabe, die eine Knopfbetätigung umfasst, wobei die Knopfbetätigung einen Benutzerwunsch nach einem Initiieren einer Push-to-talk-Spracheingabe angibt. Die computerisierte Vorrichtung empfängt eine gesprochene Phrase von dem Benutzer und empfängt eine zweite Angabe einer Benutzereingabe, die das Lösen des betätigten Knopfs umfasst, wobei das Lösen des betätigten Knopfs angibt, dass der Benutzer das Sprechen der gesprochenen Phrase beendet hat. Eine Maßnahme wird unter Verwendung des einen oder der mehreren Ausdrücke in der gesprochenen Phrase in Antwort auf das Empfangen der zweiten Benutzereingabe durchgeführt.
  • In einem weiteren Beispiel umfasst eine computerisierte Mobilvorrichtung eine präsenzempfindliche Anzeige, einen Prozessor und ein Push-to-talk-Suchmodul. Die computerisierte Mobilvorrichtung umfasst weiterhin ein Mikrofon, das betreibbar ist, um eine benutzergesprochene Suchphrase, die einen oder mehrere Suchausdrücke umfasst, bei Empfangen der ersten Benutzereingabe zu empfangen. Das Push-to-talk-Suchmodul ist betreibbar, um eine Angabe einer ersten Benutzereingabe zu empfangen, die eine Knopfbetätigung umfasst, wobei die Knopfbetätigung mit einem Spracheingabevorgang assoziiert ist. Das Push-to-talk-Suchmodul ist weiterhin betreibbar, um eine Angabe einer zweiten Benutzereingabe zu empfangen, die eine Beendigung der Knopfbetätigung umfasst, was die Vollendung der benutzergesprochenen Suchphrase angibt, und ist weiterhin betreibbar, um eine Suchanfrage unter Verwendung des einen Suchausdrucks oder der mehreren Suchausdrücke in der gesprochenen Suchphrase in Antwort auf das Empfangen der zweiten Benutzereingabe zu erzeugen.
  • Die Einzelheiten von einem oder mehreren Beispiel(en) der Erfindung sind in den beiliegenden Zeichnungen und der nachstehenden Beschreibung dargelegt. Andere Merkmale, Aufgaben und Vorteile werden aus der Beschreibung, den Zeichnungen und aus den Ansprüchen offensichtlich werden.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist eine Blockdarstellung, die eine Computervorrichtung zeigt, die verwendet werden kann, um eine Push-to-talk-Einrichtung vorzusehen, im Einklang mit einem beispielhaften Ausführungsbeispiel;
  • 2 ist eine Blockdarstellung, die weitere Einzelheiten eines Beispiels einer in 1 gezeigten Computervorrichtung zeigt, im Einklang mit einem beispielhaften Ausführungsbeispiel;
  • 3 ist eine Mobilvorrichtung, die eine Push-to-talk-Sprachsuchfunktionalität umfasst, im Einklang mit einem beispielhaften Ausführungsbeispiel;
  • 4 ist eine Mobilvorrichtung, die eine Push-to-talk-Sprachsuche vorsieht, im Einklang mit einem beispielhaften Ausführungsbeispiel; und
  • 5 ist ein Ablaufdiagramm, das ein Verfahren zum Durchführen einer Push-to-talk-Sprachsuche unter Verwendung einer Mobilvorrichtung zeigt, im Einklang mit einem beispielhaften Ausführungsbeispiel.
  • Detaillierte Beschreibung
  • In der nachstehenden ausführlichen Beschreibung von beispielhaften Ausführungsbeispielen wird Bezug genommen auf spezifische Beispiele mittels der Zeichnungen und Darstellungen. Diese Beispiele sind mit hinreichenden Einzelheiten beschrieben, um den Fachmann in die Lage zu versetzen, das Beschriebene auszuführen, und dienen dazu zu zeigen, wie diese Beispiele bei verschiedenen Zwecken oder Ausführungsbeispielen angewendet werden können. Es existieren andere Ausführungsbeispiele, und logische, mechanische, elektrische und andere Änderungen können durchgeführt werden. Merkmale oder Einschränkungen von verschiedenen Ausführungsbeispielen, die hier beschrieben sind, die jedoch für die beispielhaften Ausführungsbeispiele wesentlich sind, die sie umfassen, schränken die anderen Ausführungsbeispiele nicht ein, und jedwede Bezugnahme auf diese verschiedenen Beispiele, ihre Elemente, ihren Betrieb und ihre Anwendung schränkt die anderen Ausführungsbeispiele nicht ein, sondern dient lediglich zur Definition dieser beispielhaften Ausführungsbeispiele. Die nachstehende ausführliche Beschreibung schränkt deshalb nicht den Schutzbereich der verschiedenen Ausführungsbeispiele innerhalb des Schutzbereichs dieses Dokuments ein.
  • Mobile elektronische Vorrichtungen, wie Smartphones, Tabletcomputer, GPS-Vorrichtungen und andere elektronische Systeme setzen oft Berührschirmanzeigen ein, da die Anzeige hinter dem Berührschirm leicht angepasst werden kann, um dem Benutzer Anweisungen bereitzustellen, so dass der Berührschirm verschiedene Arten von Eingaben empfangen kann, wodurch eine intuitive Schnittstelle vorgesehen wird, die sehr wenig Benutzerübung erfordert, um effektiv verwendet zu werden. Kostengünstige und effiziente Berührschirmtechnologien ermöglichen die Einbringung von Berührschirmen in allgemein übliche elektronische Verbrauchervorrichtungen, und sehen eine vielseitige und dauerhafte Alternative für feste Eingabetasten vor.
  • Eine typische Zelltelefonberührschirmanzeige kann zum Beispiel konfiguriert werden, um eine traditionelle ”QWERTY”-Tastatur anzuzeigen und einem Benutzer zu ermöglichen, etwas einzutippen durch selektives Betätigen des Berührschirmabschnitts, der jeder Taste überlagert ist. In ähnlicher Weise kann ein Benutzer Piktogramme berühren, um Menüpunkte auszuwählen oder Anwendungen zu starten, und um andere derartige Funktionen durchzuführen. Eine typische Berührung mit einem erwachsenen Finger ist jedoch eine Ellipse, die in ihrem größten Ausmaß näherungsweise ein Drittel Zoll beträgt, und das Eintippen einer Texteingabe auf einer virtuellen Tastatur auf einer Berührschirmanzeige, die einen Teil eines Berührschirms einnehmen kann, dessen Größe womöglich lediglich zwei bis drei Zoll beträgt, kann schwierig sein. Die Eingabe von Text wird zunehmend problematisch, wenn der Benutzer versucht, eine andere Aktivität zum gleichen Zeitpunkt durchzuführen, wie das Fahren oder Gehen.
  • Einige Smartphones sehen deshalb eine Spracheingabe für Textdaten vor, unter Verwendung von Spracherkennung oder von Sprache-zu-Text-Umwandlung, um eine Texteingabe aus gesprochenen Benutzerwörtern zu erzeugen. Dies umfasst typischerweise ein Erfassen einer Wischbewegung oder eines Sequenzschlüssel-Codes durch das Smartphone, um das Telefon zu entsperren, und das Empfangen einer zusätzlichen Benutzereingabe, um die geeignete Anwendung zu starten, um die eingegebenen Daten zu empfangen. Der Benutzer findet dann das gewünschte Texteingabefeld, wie eine Textnachrichten-Austauschanwendung, eine Suchbox in einem Webbrowser oder ein zu durchsuchendes Kontaktverzeichnis, und wählt das Textfeld aus, zum Beispiel durch Antippen des Feldes. Die mobile Vorrichtung empfängt die Benutzereingabe und macht das ausgewählte Textfeld zu dem aktiven Feld für die Texteingabe. Der Benutzer berührt dann einen Knopf, um eine Spracheingabe zu initiieren, und die Mobilvorrichtung sieht eine Benachrichtigung vor, die angibt, dass die Spracheingabe aktiviert wurde. Der Benutzer spricht dann die Worte, die als Eingabe beabsichtigt sind.
  • Der Benutzer kann dann einen Knopf auf der Mobilvorrichtung drücken, so dass die Vorrichtung die Knopfbetätigung empfängt, um anzugeben, dass eine Sprachtexteingabe vollendet ist, oder es kann die Vorrichtung bestimmen, dass die Sprachtexteingabe nach einer vorbestimmten Zeitdauer der Stille vollendet ist. Das Erfassen von Stille, um zu bestimmen, dass die sprachbasierte Texteingabe vollendet ist, ist in vielen Situationen durch Umgebungsrauschen verkompliziert, wie Menschen, die auf der Straße sprechen, oder einem Autoradio, das in einem Auto läuft. In einigen Beispielen empfängt die Mobilvorrichtung weiterhin eine Benutzereingabe, wie eine Benutzerbetätigung eines Knopfs, um anzugeben, dass die Spracheingabe, die bereitgestellt wurde, korrekt erkannt wurde, und bereit ist, um als umgewandelte Texteingabe für das zuvor ausgewählte Textfeld bereitgestellt zu werden.
  • Obwohl ein derartiger Prozess weniger Tippen auf der Berührschirmanzeige der Mobilvorrichtung umfasst, als das Verwenden einer virtuellen Tastatur zum Eintippen einer Nachricht, ist er etwas kompliziert und umfasst mehrere verschiedene Interaktionen mit der Vorrichtung, um die sprachbasierte Eingabe vorzusehen.
  • 1 ist eine Blockdarstellung, die eine Computervorrichtung 102 zeigt, die verwendet werden kann, um eine Push-to-talk-Einrichtung vorzusehen, die eine Sprachsucheingabe aktiviert, was eine effizientere Suchausdruckeingabe vorsieht, als durch das Verwenden von traditionellen Allzweckspracheingabeverfahren auf Mobilvorrichtungen vorgesehen werden kann, im Einklang mit einem beispielhaften Ausführungsbeispiel. In einigen Beispielen ist die Computervorrichtung 102 mit einem Benutzer 104 assoziiert. Ein Benutzer, der mit einer Computervorrichtung assoziiert ist, kann mit der Benutzervorrichtung interagieren durch Bereitstellen von verschiedenen Benutzereingaben in die Computervorrichtung, wie eine Eingabe in einen präsenzempfindlichen Berührschirm oder eine andere Eingabe. In einigen Beispielen kann der Benutzer 104 ein oder mehrere Konten bei einem oder mehreren Diensten aufweisen, wie einem sozialen Netzwerkdienst und/oder einem Telefondienst, und die Konten können bei der Computervorrichtung 102 registriert sein.
  • Beispiele der Computervorrichtung 102 können tragbare oder mobile Vorrichtungen umfassen, wie Mobiltelefone (einschließlich Smartphones), Tabletcomputer, Laptopcomputer, Desktopcomputer, Tabletcomputer, einer Plattform für intelligentes Fernsehen, persönliche digitale Assistenten (PDAs), Server, Mainframes, usw., ohne auf diese eingeschränkt zu sein. Die Computervorrichtung 102 kann in einigen Beispielen eine oder mehrere Eingabevorrichtungen 106 und eine oder mehrere Ausgabevorrichtungen 108 umfassen. Die Eingabevorrichtungen umfassen verschiedene Ausführungsbeispiele von Benutzereingaben, wie präsenzempfindliche oder Berührschirmanzeigen, Mikrofone, Knöpfe, Tasten und andere Eingabevorrichtungen. Die Ausgabevorrichtungen 108 umfassen Benutzerausgaben, wie Lautsprecher, Anzeigen und andere Ausgabevorrichtungen. Andere Eingabe- und Ausgabevorrichtungen umfassen einen GPS-Empfänger, ein Zellfunkmodem, Bluetooth, Nahfeldkommunikations-(NFC, near-field communication)-Funk und andere derartige Vorrichtungen. Andere Beispiele einer Computervorrichtung 102, die hier beschriebene Funktionen implementieren, können zusätzliche Komponenten umfassen, die in 1 nicht gezeigt sind.
  • Die Computervorrichtung 12 kann verschiedene Anwendungen umfassen, wie eine Suchanwendung 110 und andere Anwendungen 116A bis 116N. In einigen Beispielen ist die Suchanwendung 110 konfiguriert, um Positionsinformationen von einem GPS-Empfänger zu empfangen, eine Benutzereingabe über die Eingabevorrichtungen 106, wie einen präsenzempfindlichen Berührschirm, zu empfangen, und um eine Ausgabe über die Ausgabevorrichtungen 108, wie eine Anzeige, bereitzustellen. Ein Schnittstellenmodul 112 der Suchanwendung 110 interagiert mit Vorrichtungen, wie der Eingabevorrichtung 106, wie einer präsenzempfindlichen Berührschirmanzeige, die eine grafische Benutzerschnittstelle anzeigen kann und eine Eingabe von einem Benutzer unter Verwendung einer kapazitiven oder induktiven Erfassung bei oder nahe der präsenzempfindlichen Berührschirmanzeige empfangen kann. Die Suchanwendung 110 umfasst weiterhin ein Sprache-zu-Text-Modul 114, das betreibbar ist, um gesprochene Suchausdrücke, die über eine Eingabevorrichtung, wie ein Mikrofon 106, empfangen werden, in Text umzuwandeln. Die gesprochenen Ausdrücke sind in einigen Beispielen Suchausdrücke, während sie in anderen Beispielen Push-to-talk-Text, wie eine Textnachrichteneingabe unter Verwendung von push-to-talk, sein können.
  • Wie in 1 gezeigt, zeigt die Suchanwendung 110 über eine Ausgabevorrichtung 108, wie einem präsenzempfindlichen Berührschirm, eine Benutzerschnittstelle an, die das Empfangen einer Spracheingabe in einer Mobilvorrichtung vorsieht durch Bereitstellen einer Push-to-talk-Einrichtung, die eine Sprachsucheingabe aktiviert, was zu einer effizienteren Suchausdruckeingabe führt, als durch das Verwenden von traditionellen Allzweckspracheingabeverfahren auf Mobilvorrichtungen bereitgestellt werden kann. Eine Benutzerauswahl, wo der gesprochene Suchausdruck anzuwenden ist, kann vorgesehen werden durch Anzeigen der gesprochenen Suchausdrücke bei einer Anzeige der Mobilvorrichtung, und durch Empfangen der Eingabe von einem Benutzer, wie das Ziehen oder Wischen einer Darstellung des umgewandelten Textes in ein Piktogramm, das die gewünschte Anwendung oder zu durchsuchende Datenbank darstellt, oder durch Empfangen einer anderen Eingabe, wie einer Benutzerberührung bei einem Piktogramm unter mehreren Piktogrammen, die verschiedene durchsuchbare Anwendungen oder Datenbanken darstellen.
  • In einem ausführlicheren Beispiel empfängt eine Eingabevorrichtung 106, wie ein mechanischer Knopf oder ein präsenzempfindlicher Schirmknopfbereich, eine Benutzerbetätigung, um die Sprachtexteingabe zur Suche zu aktivieren, und es wird ein Mikrofon aktiviert, um benutzergesprochene gewünschte Suchausdrücke zu empfangen. Wenn die Betätigung des Knopfes oder der Knopffläche beendet ist, werden die gesprochenen, gewünschten Suchausdrücke unter Verwendung eines Spracherkennungsalgorithmus in Text umgewandelt. Der Knopf umfasst in einigen Beispielen das Erfassen der Betätigung einer Kombination von mechanischen Knöpfen oder von präsenzempfindlichen Berührschirmflächeknöpfen auf einmal, um das Sprachtexteingabewerkzeug zu aktivieren.
  • In einem derartigen Beispiel aktiviert die Betätigung sowohl des mechanischen Lautstärkehochregelknopfes als auch das Lautstärkeabregelknopfes zur gleichen Zeit das Sprachtexteingabesuchwerkzeug, ohne Rücksichtnahme darauf, ob das Telefon gesperrt oder entsperrt ist. In einem weiteren Beispiel ist eine Berührschirmknopffläche, die für eine schnelle Sprachsuche sorgt, auf dem Sperrschirm vorgesehen, und ist leicht zugänglich, wenn das Smartphone gesperrt ist. Der Knopf auf dem Sperrschirm in einem anderen Beispiel kann ein Schieber oder eine andere Eingabeeinrichtung sein, die ausgelegt ist, um eine unbeabsichtigte Betätigung des Sprache-zu-Text-Suchwerkzeuges zu vermeiden, während noch immer für eine einschrittige Aktivierung des Werkzeugs von einem Sperrschirm der Mobilvorrichtung gesorgt wird.
  • 2 ist ein Blockdiagramm, das weitere Einzelheiten eines Beispiels einer in 1 gezeigten Computervorrichtung zeigt. 2 zeigt lediglich ein bestimmtes Beispiel einer Computervorrichtung 200, und viele andere Beispiele der Computervorrichtung 200 können in anderen Beispielen verwendet werden.
  • Wie in dem spezifischen Beispiel gemäß 2 gezeigt, umfasst die Computervorrichtung 200 einen oder mehrere Prozessor(en) 202, einen Speicher 204, eine oder mehrere Eingabevorrichtung(en) 206, eine oder mehrere Ausgabevorrichtung(en) 208, ein oder mehrere Kommunikationsmodul(e) 210 und eine oder mehrere Speichervorrichtung(en) 212. Die Computervorrichtung 200 umfasst in einem Beispiel weiterhin ein Betriebssystem 216, das durch die Computervorrichtung 200 ausführbar ist. Das Betriebssystem umfasst in verschiedenen Beispielen Dienste, wie einen Dienst 218 für eine grafische Benutzerschnittstelle und einen Suchdienst 220. Eine oder mehrere Anwendungen, wie eine Suchanwendung 222, sind ebenso auf der Speichervorrichtung 212 gespeichert, und sind durch die Computervorrichtung 200 ausführbar. Jede der Komponenten 202, 204, 206, 208, 210 und 212 kann zur Interkomponentenkommunikation (physikalisch, kommunikativ und/oder betriebsfähig) zwischenverbunden sein, wie über einen oder mehrere Kommunikationskanäle 214. In einigen Beispielen können die Kommunikationskanäle 214 einen Systembus, eine Netzwerkverbindung, eine Interprozesskommunikations-Datenstruktur oder jedweden anderen Kanal zur Kommunikation von Daten umfassen. Anwendungen, wie 222, und das Betriebssystem 216 können ebenso Informationen miteinander sowie mit anderen Komponenten in der Computervorrichtung 200 kommunizieren.
  • Die Prozessoren 202 sind in einem Beispiel konfiguriert, um eine Funktionalität und/oder Prozessanweisungen zur Ausführung innerhalb der Computervorrichtung 200 zu implementieren. Zum Beispiel können die Prozessoren 202 in der Lage sein, Anweisungen zu verarbeiten, die in der Speichervorrichtung 212 gespeichert sind. Beispiele der Prozessoren 202 können irgendeinen oder mehrere eines Mikroprozessors, einer Steuereinrichtung, eines digitalen Signalprozessors (DSP), einer anwendungsspezifischen integrierten Schaltung (ASIC, application specific integrated circuit), eines feldprogrammierbaren Gate-Arrays (FPGA) oder einer äquivalenten diskreten oder integrierten Logikschaltung umfassen.
  • Die eine oder mehreren Speichervorrichtung(en) 212 kann/können konfiguriert sein, um Informationen innerhalb der Computervorrichtung 200 während des Betriebs zu speichern. Die Speichervorrichtung 212 wird in einigen Beispielen als ein computerlesbares Speichermedium beschrieben. In einigen Beispielen ist die Speichervorrichtung 212 ein temporärer Speicher, was bedeutet, dass ein primärer Zweck der Speichervorrichtung 212 nicht in der langfristigen Speicherung besteht. Die Speichervorrichtung 212 wird in einigen Beispielen als ein flüchtiger Speicher beschrieben, was bedeutet, dass die Speichervorrichtung 212 gespeicherte Inhalte nicht beibehält, wenn der Computer abgeschaltet wird. In einigen Beispielen werden Daten aus der Speichervorrichtung 212 in den Speicher 204 während des Betriebs geladen. Beispiele von flüchtigen Speichern umfassen Speicher mit wahlfreiem Zugriff (RAM, random access memories), dynamische Speicher mit wahlfreiem Zugriff (DRAM), statische Speicher mit wahlfreiem Zugriff (SRAM) und andere Formen von flüchtigen Speichern, die in der Technik bekannt sind. In einigen Beispielen wird die Speichervorrichtung 212 verwendet, um Programmanweisungen zur Ausführung durch die Prozessoren 202 zu speichern. Die Speichervorrichtung 212 und der Speicher 204 werden in einigen Beispielen durch Software oder Anwendungen, die auf der Computervorrichtung 200 (z. B. Anwendungen 222) laufen, verwendet, um Informationen während der Programmausführung zeitweilig zu speichern.
  • Die Speichervorrichtungen 212 umfassen in einigen Beispielen ebenso ein oder mehrere computerlesbare Speichermedien. Die Speichervorrichtungen 212 können konfiguriert sein, um größere Mengen an Information zu speichern als ein flüchtiger Speicher. Die Speichervorrichtungen 212 können weiterhin konfiguriert sein, um Informationen langfristig zu speichern. In einigen Beispielen umfassen die Speichervorrichtungen 212 nicht-flüchtige Speicherelemente. Beispiele derartiger nichtflüchtiger Speicherelemente umfassen magnetische Festplatten, optische Platten, Disketten, Flash-Speicher oder Formen von elektrisch programmierbaren Speichern (EPROM) oder elektrisch löschbaren und programmierbaren (EEPROM)-Speichern.
  • Die Computervorrichtung 200 umfasst in einigen Beispielen ebenso eine oder mehrere Kommunikationseinheiten 210. Die Computervorrichtung 200 verwendet in einem Beispiel die Kommunikationseinheit 210, um mit externen Vorrichtungen über ein oder mehrere Netzwerke zu kommunizieren, wie einem oder mehreren drahtlosen Netzwerken. Die Kommunikationseinheit 210 kann eine Netzwerkschnittstellenkarte, wie eine Ethernet-Karte, ein optischer Sendeempfänger, ein Funkfrequenz-Sendeempfänger oder jedwede andere Art von Vorrichtung sein, die Informationen senden und/oder empfangen kann. Andere Beispiele derartiger Netzwerkschnittstellen können Bluetooth, 3G- und WiFi-Funkcomputervorrichtungen sowie einen universellen seriellen Bus (USB) umfassen. In einigen Beispielen verwendet die Computervorrichtung 200 die Kommunikationseinheit 210, um drahtlos mit einer externen Vorrichtung, wie den Computervorrichtungen 102 gemäß 1, oder jedweden anderen Computervorrichtungen zu kommunizieren.
  • Die Computervorrichtung 200 umfasst in einem Beispiel ebenso eine oder mehrere Eingabevorrichtungen 206. Die Eingabevorrichtung 206 ist in einigen Beispielen konfiguriert, um eine Eingabe von einem Benutzer durch eine taktile Audio- oder Video-Rückkopplung zu empfangen. Beispiele der Eingabevorrichtung 206 umfassen eine präsenzempfindlichen Berührschirmanzeige, eine Maus, eine Tastatur, ein sprachreaktives System, eine Videokamera, ein Mikrofon oder jedwede andere Art von Vorrichtung zur Erfassung einer Eingabe von einem Benutzer. In einigen Beispielen umfasst eine präsenzempfindliche Anzeige einen berührempfindlichen Schirm, der gemeinhin als Berührschirm (”Tocuhscreen”) bekannt ist.
  • Die eine oder mehreren Ausgabevorrichtungen 208 können ebenso von der Computervorrichtung 200 umfasst sein. Die Ausgabevorrichtung 208 ist in einigen Beispielen konfiguriert, um eine Ausgabe für einen Benutzer unter Verwendung von taktilen Audio- oder Video-Reizen bereitzustellen. Die Ausgabevorrichtung 208 umfasst in einem Beispiel eine präsenzempfindliche Berührschirmanzeige, eine Soundkarte, eine Videografikadapterkarte oder jedwede andere Art von Vorrichtung zur Umwandlung eines Signals in eine geeignete Form, die für Menschen oder Maschinen verständlich ist. Zusätzliche Beispiele der Ausgabevorrichtung 208 umfassen einen Lautsprecher, eine Anzeige mit lichtemittierenden Dioden (LED), eine Flüssigkristallanzeige (LCD, liquid crystal display) oder jedwede andere Art von Vorrichtung, die eine Ausgabe für einen Benutzer erzeugen kann. In einigen Beispielen werden die Eingabevorrichtung 206 und/oder die Ausgabevorrichtung 208 verwendet, um Dienste des Betriebssystems vorzusehen, wie einen Dienst 218 für eine grafische Benutzerschnittstelle, wie über eine präsenzempfindliche Berührschirmanzeige.
  • Die Computervorrichtung 200 kann das Betriebssystem 216 umfassen. Das Betriebssystem 216 steuert in einigen Beispielen den Betrieb von Komponenten der Computervorrichtung 200 und sieht eine Schnittstelle von verschiedenen Anwendungen, wie die 222, mit Komponenten der Computervorrichtung 200 vor. Zum Beispiel erleichtert das Betriebssystem 216 in einem Beispiel die Kommunikation der Anwendung 222 mit den Prozessoren 202, der Kommunikationseinheit 210, der Speichervorrichtung 212, der Eingabevorrichtung 206 und der Ausgabevorrichtung 208. Wie in 2 gezeigt, kann die Anwendung 222 die Suchanwendung 110 umfassen, wie in 1 beschrieben. Anwendungen, wie die 222, können jeweils Programmanweisungen und/oder Daten umfassen, die durch die Computervorrichtung 200 ausführbar sind. Als ein Beispiel können die Suchanwendung 222 und ihre Schnittstellenmodule 224 und Sprache-zu-Text-Module 226 Anweisungen umfassen, die die Computervorrichtung 200 veranlassen, einen oder mehrere der Betriebe und Maßnahmen durchzuführen, die in dieser Beschreibung beschrieben sind.
  • Die Verfahren, die hier beschrieben sind, können zumindest teilweise in Hardware, Software, Firmware oder in jedweder Kombination derer implementiert werden. Die beschriebenen Verfahren können zum Beispiel innerhalb eines oder mehrerer Prozessoren implementiert werden, einschließlich eines oder mehrerer Mikroprozessoren, digitaler Signalprozessoren (DSPs), anwendungsspezifischer integrierter Schaltungen (ASICs), feldprogrammierbarer Gate-Arrays (FPGAs) oder jedweder anderer äquivalenter integrierter oder diskreter Logikschaltung, sowie jedweder Kombinationen derartiger Komponenten. Der Ausdruck ”Prozessor” oder ”Verarbeitungsschaltung” kann im Allgemeinen jedwede der vorstehend beschriebenen Logikschaltungen allein oder in Kombination mit einer anderen Logikschaltung oder jedwede andere äquivalente Schaltung betreffen. Eine Steuereinheit, die Hardware umfasst, kann ebenso eines oder mehrere der hier beschriebenen Verfahren durchführen.
  • Derartige Hardware, Software und Firmware kann innerhalb der gleichen Vorrichtung oder innerhalb getrennter Vorrichtungen implementiert sein, um die hier beschriebenen verschiedenen Verfahren zu unterstützen. Zudem können jedwede der beschriebenen Einheiten, Module oder Komponenten zusammen oder getrennt als diskrete aber gemeinsam betriebsfähige Logikvorrichtungen implementiert werden. Die Beschreibung von verschiedenen Merkmalen als Module oder Einheiten beabsichtigt, die unterschiedliche Funktionalität hervorzuheben, und impliziert nicht notwendigerweise, dass derartige Module oder Einheiten durch separate Hardware-, Firmware- oder Software-Komponenten realisiert werden müssen. Stattdessen kann eine Funktionalität, die mit einem oder mehreren Modulen oder Einheiten assoziiert ist, durch getrennte Hardware-, Firmware- oder Software-Komponenten durchgeführt werden, oder innerhalb gemeinsamer oder getrennter Hardware-, Firmware- oder Software-Komponenten integriert sein.
  • Die hier beschriebenen Verfahren können ebenso in einem hergestellten Artikel ausgeführt sein oder in diesem kodiert sein, einschließlich eines computerlesbaren Speichermediums, das mit Anweisungen kodiert ist. Anweisungen, die in einem hergestellten Artikel einschließlich eines kodierten computerlesbaren Speichermediums eingebettet oder kodiert sind, können einen oder mehrere programmierbare Prozessoren oder andere Prozessoren veranlassen, eine oder mehrere der hier beschriebenen Techniken zu implementieren, wie wenn Anweisungen, die in dem computerlesbaren Speichermedium umfasst oder kodiert sind, durch den einen oder die mehreren Prozessoren ausgeführt werden. Computerlesbare Speichermedien können Speicher mit wahlfreiem Zugriff (RAM), Festwertspeicher (ROM, read-only memory), programmierbare Festwertspeicher (PROM), löschbare programmierbare Festwertspeicher (EPROM), elektronisch löschbare programmierbare Festwertspeicher (EEPROM), einen Flash-Speicher, eine Festplatte, eine Kompaktdisk-ROM (CD-ROM), eine Diskette, eine Kassette, magnetische Medien, optische Medien oder andere computerlesbare Medien umfassen. In einigen Beispielen kann ein hergestellter Artikel ein oder mehrere computerlesbare Speichermedien umfassen.
  • In einigen Beispielen kann ein computerlesbares Speichermedium ein nicht-vergängliches Medium umfassen. Der Ausdruck ”nicht-vergänglich” kann angeben, dass das Speichermedium nicht in einer Trägerwelle oder einem sich fortpflanzendem Signal ausgeführt ist. In bestimmten Beispielen kann ein nicht-vergängliches Speichermedium Daten speichern, die sich über die Zeit ändern können (zum Beispiel in einem Speicher oder einem nicht-flüchtigen Speicher).
  • 3 zeigt eine Mobilvorrichtung, die eine Push-to-talk-Sprachsuchfunktionalität umfasst, im Einklang mit einem Beispiel. Hierbei umfasst eine mobile Computervorrichtung, wie ein Smartphone 300, eine präsenzempfindliche Berührschirmanzeige 302, die in diesem Beispiel einen gesperrten Zustand darstellt. Das gesperrte Anzeigebild umfasst hier eine Uhr, die die Zeit anzeigt, sowie neun Knöpfe, die in einer quadratischen Anordnung mit einem Knopf in der Mitte des Quadrats angeordnet sind. Das Smartphone entsperrt bei Empfang einer Eingabe, wie dem Zeichnen eines vorkonfigurierten Musters durch einen Benutzer, der die Punkte 304 miteinander verbindet. Dieses dient sowohl zur Verhinderung einer unbeabsichtigten Verwendung des Telefons als auch zu einem Vorsehen eines gewissen Grads an Datensicherheit für den Besitzer des Telefons. In einem anderen Beispiel wird die Vorrichtung entsperrt bei Eingabe eines Passworts, wie einer Zahl, die unter Verwendung eines numerischen Tastenfeldes eingegeben wird.
  • Selbst bei einem gesperrten Telefon können bestimmte Funktionen verfügbar bleiben, wie die Fähigkeit, Rufe zu tätigen oder ein Foto aufzunehmen. In diesem Fall verbleibt das Smartphone verfügbar, um eine sprachbasierte Suche durchzuführen, und tritt in einen Spracheingabemodus bei Erfassung einer Wischbewegung über einen Sprachsuchwischbalken 306 ein. Das Smartphone empfängt dann gesprochene Worte, die zu suchen sind, über ein Mikrofon, bis der Benutzer den Finger entfernt, der verwendet wurde, um die Wischeingabe von dem Ende des Sprachsuchwischbalkens bereitzustellen. In einem alternativen Ausführungsbeispiel wird die Sprachsuche womöglich nicht initiiert, bis das Telefon entsperrt ist, oder kann das Smartphone die Suche auf bestimmten Anwendungen oder Datenbanken beschränken, wenn das Telefon gesperrt ist.
  • In einem alternativen Ausführungsbeispiel empfängt das Smartphone 300 eine Eingabe durch physikalische Knöpfe, um eine sprachbasierte Suche zu initiieren, wie das Erfassen der Betätigung sowohl des Lautstärkehochregelknopfes 308 als auch das Lautstärkeabregelknopfes 310 zur gleichen Zeit. Das Betätigen der sprachbasierten Suche in dem Beispiel kann erreicht werden unter Verwendung von physischen Knöpfen, wenn sich das Telefon in dem gesperrten oder entsperrten Zustand befindet, kann aber in einem anderen Ausführungsbeispiel lediglich bei Entsperrung verfügbar sein oder lediglich bei Sperrung. Hierbei erfasst das Smartphone die Betätigung des Lautstärkehochregelknopfes 308 und des Lautstärkeabregelknopfes 310 zur gleichen Zeit, und empfängt die gesprochenen Suchausdrücke, bis zumindest einer der Knöpfe gelöst wird, was angibt, dass die Spracheingabe vollendet ist.
  • In einem detaillierteren Beispiel erfasst das Smartphone 300 bei der präsenzempfindlichen Berührschirmanzeige 300 eine erste Benutzereingabe, die entweder eine simultane Betätigung der Knöpfe 308 und 310 umfasst oder eine Wischbewegung über den Wischbalken 306, wie über die grafische Benutzerschnittstellendienst 219 des Betriebssystems 216 gemäß 2 oder über das Schnittstellenmodul 224 der Suchanwendung 222. Die Mobilvorrichtung initiiert einen Spracheingabevorgang als ein Ergebnis des Empfangens der Eingabe und empfängt die Spracheingabe zum Beispiel durch eine Mikrofoneingabevorrichtung 206. Wenn der Benutzer den Wischbalken 306 oder zumindest einen der Knöpfe 308 und 310 löst, ist die gesprochene Sucheingabe vollendet und das Smartphone 300 beendet das Empfangen der Spracheingabe. Die Suchanwendung 222 des Smartphones verwendet dann das Sprache-zu-Text-Modul 226, um das gesprochene Wort oder die Phrase in Text umzuwandeln, und führt eine Suche unter Verwendung der Textsuchausdrücke über den Suchdienst 220 des Betriebssystems 216 durch.
  • 4 zeigt eine Mobilvorrichtung, die eine Push-to-talk-Sprachsuche vorsieht, im Einklang mit einem beispielhaften Ausführungsbeispiel. Hierbei umfasst die Mobilvorrichtung 400 ein Smartphone, kann aber in anderen Ausführungsbeispielen ein Tablet-Computer, ein persönlicher digitaler Assistent (PDA), ein E-Leser oder eine andere Vorrichtung sein. Die Mobilvorrichtung umfasst eine präsenzempfindliche Berührschirmanzeige 402 und einen Lautstärkehochregelknopf 404 und einen Lautstärkeabregelknopf 406.
  • Die Mobilvorrichtung empfängt die Benutzereingabe, die ein Suchtexteingabefeld auswählt, das auf der Anzeige 408 gezeigt ist, in das ein oder mehrere Suchausdrücke einzugeben sind, wird aber in einem alternativen Ausführungsbeispiel eine weitere Maßnahme durchführen, um eine Suche zu initiieren, was zu der Darstellung eines Sucheingabeschirms führt, wie jenem, der auf der Berührschirmanzeige bei 402 gezeigt ist. Die Mobilvorrichtung kann Suchausdrücke unter Verwendung einer Tastatur 410 empfangen, die über die präsenzempfindliche Berührschirmanzeige der Mobilvorrichtung dargestellt ist, dies ist aber womöglich, wie vorstehend dargestellt, aus mehreren Gründen nicht wünschenswert.
  • Das Eintippen von Suchausdrücken über eine Tastatur kann dahingehend schwierig sein, dass es oft zwei Hände erfordert, um effizient durchgeführt zu werden, wie durch das Tragen der Mobilvorrichtung mit einer Hand, während mit der anderen getippt wird, oder das Umschließen der Mobilvorrichtung mit den Fingern, während mit den Daumen beider Hände eingetippt wird. Das Eingeben von Text, während andere Maßnahmen durchgeführt werden, wie Fahren, kann deshalb schwierig oder gefährlich sein. Ebenso kann die relativ kleine Größe von jeder Taste auf der präsenzempfindlichen Berührschirmtastatur 410 das Tippen langsam und fehleranfällig machen, wenn man bedenkt, dass die Gesamtbreite einer typischen Tastatur, wie jener, die bei 410 gezeigt ist, womöglich lediglich einige Zoll beträgt, während eine Fingerberührung typischerweise näherungsweise ein Drittel eines Zoll in der Breite beträgt, und der genaue Ort der Berührung durch den Rest des Benutzerfingers verborgen wird.
  • Die Mobilvorrichtung 400 sieht deshalb einen Sprachsuchknopf 412 vor, der bei Betätigung eine Sprachsuchausdruck-Eingabe in einer Push-to-talk-Weise vorsieht. Das heißt, wenn die Mobilvorrichtung eine Betätigung des Berührschirmsprachsuchknopfes 412 erfasst, empfängt die Mobilvorrichtung eine Spracheingabe durch ein Mikrofon und wandelt diese in Suchausdrücke um. Die Mobilvorrichtung beendet das Empfangen von Spracheingabe zur Umwandlung, wenn der Knopf gelöst wird, wie zum Beispiel ein Push-to-talk-Knopf auf einem Zweiwegefunkgeräte oder einem Interkommunikationsgerät lediglich dann Sprache sendet, während ein ”Sprech”-Knopf herabgedrückt wird.
  • In einem alternativen Ausführungsbeispiel erfasst die Mobilvorrichtung eine Betätigung von einem oder mehreren physischen Knöpfen anstelle einer virtuellen oder Berührschirm-Anzeige-Knopffläche, um eine Push-to-talk-Spracheingabe von Suchausdrücken zu aktivieren, wie die gleichzeitige Betätigung sowohl des Lautstärkehochregelknopfes 404 als auch des Lautstärkeabregelknopfes 406. Dies ist in einigen Ausführungsbeispielen wünschenswert, da die physischen Knöpfe dem Benutzer eine taktile Rückkopplung bereitstellen, und verwendet werden können, um nicht lediglich Sprachsuchausdrücke einzugeben, sondern eine Push-to-talk-sprachbasierte Suche initiieren können. Die Mobilvorrichtung empfängt die Spracheingabe, während die Knöpfe gedrückt werden, und beenden das Empfangen der Spracheingabe für die Suchausdrücke, wenn die Knöpfe gelöst werden. In dem Beispiel mit Lautstärkeknöpfen sieht das Drücken beider Knöpfe gleichzeitig einen einfachen Mechanismus für den Benutzer vor, um eine Spracheingabe zur Suche zu initiieren und bereitzustellen, ohne dass eine zusätzliche Hardware erforderlich wäre, die nicht bereits gemeinhin auf Mobilvorrichtungen bereitgestellt wird, wie Smartphones und Tablet-Computern.
  • Das Verwenden eines Push-to-talk-Knopfs, um Suchausdrücke oder eine andere Texteingabe bereitzustellen, sieht den Mehrwert eines wohldefinierten Start- und Stoppzeitpunkts für die gesprochenen Suchausdrücke vor, was die Aufgabe des Bestimmens vereinfacht, welche Geräusche gesprochene Worte sind, die ein Teil der Suchphrase sein sollen. Zum Beispiel kann ein Benutzer auf einem belebten Bürgersteig wünschen, nach einem Weg zu einem Restaurant zu suchen, und eine sprachbasierte Suche verwenden, anstelle des Versuchs, während des Gehens zu tippen. Das einfache Verwenden einer Spracherkennung mit einer automatischen Erfassung des Endes einer gesprochenen Phrase durch Erfassen einer Zeitdauer der Stille kann in einer derartigen Umgebung ineffizient sein, in der Umgebungsrauschen einschließlich des Sprechens anderer Menschen eine automatische Erfassung des Endes einer gesprochenen Phrase verhindern kann.
  • In einem weiteren Beispiel erkennt die Mobilvorrichtung 400 gesprochene Suchausdrücke entweder während der Benutzer spricht oder wenn das Sprechen des Benutzers erst einmal vollendet ist, und eine Liste von einer oder mehreren Sprache-zu-Text-umgewandelten Suchphrasen wird für den Benutzer zur Auswahl und Suche dargestellt. Unter Bezugnahme auf 4 drückt der Benutzer entweder den Sprachsuchberührschirmknopf 412 oder den Lautstärkehochregelknopf 404 und den Lautstärkeabregelknopf 406, während er die Phrase ”wouldn't you kiss this guy” spricht. Ein Sprache-zu-Text-Modul innerhalb der Mobilvorrichtung 400 empfängt eine digitalisierte Version des Sprachsignals durch ein Mikrofon und wandelt die gesprochene Phrase in eine oder mehrere wahrscheinliche Suchausdrücke oder Phrasen um. Die Mobilvorrichtung 400 zeigt den einen oder die mehreren wahrscheinlichen Suchausdrücke den Benutzern an, wie bei der Anzeige 408 gezeigt, so dass der Benutzer die vorgeschlagenen Phrasen oder Ausdrücke lesen und unter ihnen durch Antippen einer angezeigten Darstellung der korrekten Phrase bei der Anzeige 408 mit einem Finger auswählen kann.
  • In einem alternativen Ausführungsbeispiel erfasst die Mobilvorrichtung 400 entweder den Benutzer, wie er den Sprachsuchberührschirmknopfbereich 412 löst, um die sprachbasierte Suchausdruckeingabe zu beenden, oder eine getrennte Berührmaßnahme, um die Auswahl einer gewünschten Phrase anzugeben, oder erfasst einen Fingerzug oder ein Fingerwischen von dem Sprachsuchknopf 412 zu der gewünschten Phrase, die auf der Anzeige dargestellt ist. In einem weiteren Beispiel ist die Mobilvorrichtung betreibbar, um eine Phrase zu erfassen, die wiederholt wird, während der Sprachsuchknopf oder die -knöpfe betätigt werden, und stellt neue oder zusätzliche vorgeschlagene Phrasen oder Ausdrücke in dem Suchtexteingabefeld auf der Anzeige 408 bereit. Falls die Mobilvorrichtung erfasst, dass der Sprachsuchknopf gelöst und wieder gedrückt wurde, ohne die Auswahl einer vorgeschlagenen Suchphrase, werden ebenso neue oder zusätzlich vorgeschlagene Phrasen oder Ausdrücke in dem Suchtexteingabefeld 408 bereitgestellt.
  • 5 ist ein Ablaufdiagramm, das ein Verfahren zum Durchführen einer Push-to-talk-Sprachsuche unter Verwendung einer Mobilvorrichtung zeigt, im Einklang mit einem beispielhaften Ausführungsbeispiel. Das beispielhafte Verfahren gemäß 5 kann durch eine mobile Computervorrichtung durchgeführt werden, wie der Computervorrichtung 102 gemäß 1 oder der Mobilvorrichtung 200 gemäß 2. Bei 501 erfasst eine Mobilvorrichtung, wie ein Smartphone, eine gleichzeitige Betätigung eines Lautstärkehochregelknopfes und eines Lautstärkeabregelknopfes auf der Seite der Vorrichtung. Dies löst eine Initiierung einer Push-to-talk-Suche aus, was das Smartphone veranlasst, die Erfassung gesprochener Worte von dem Benutzer unter Verwendung eines angefügten Mikrofons zu starten.
  • Die Mobilvorrichtung erfasst eine gesprochene Suchphrase bei 502, die eine oder mehrere Worte oder Suchausdrücke umfasst, wie durch Empfangen eines Sprachsignals über ein Mikrofon, Digitalisieren des empfangenen Sprachsignals und Umwandeln des digitalisierten Sprachsignals in Text. In einem weiteren Beispiel speichert die Mobilvorrichtung die digitalisierte Sprache zur Sprache-zu-Text-Umwandlung, wie durch Speichern der Sprache in einem computerlesbaren Speichermedium, wie einem dynamischen Speicher mit wahlfreiem Zugriff (DRAM) der Mobilvorrichtung. In einem alternativen Ausführungsbeispiel wird die Sprache einem externen computerisierten System zur Sprache-zu-Text-Umwandlung bereitgestellt, wie einem Server, der kommunikationsfähig mit der drahtlosen Vorrichtung gekoppelt ist.
  • Die Mobilvorrichtung erfasst dann das Lösen von zumindest einem des Lautstärkehochregelknopfes und des Lautstärkeabregelknopfes bei 503, was die Push-to-talk-Spracheingabe von Suchausdrücken anhält. Die Mobilvorrichtung hält das Erfassen von Suchausdrücken an, wenn die Lautstärkeknöpfe erst einmal nicht länger gleichzeitig gedrückt werden, und wandelt bei 504 die gesprochene Suchphrase in eine oder mehrere wahrscheinliche Textsuchphrasen durch die Sprache-zu-Text-Umwandlung um. In weiteren Ausführungsbeispielen werden zusätzliche Werkzeuge, wie ein Vergleichen der Sprache-zu-Text-Umwandlungsergebnisse mit tatsächlichen wahrscheinlichen Suchphrasen unter Verwendung einer Suchmaschine oder einer anderen derartigen Ressource, angewendet, um wahrscheinlichere Textsuchphrasen als ein Ergebnis der Sprache-zu-Text-Umwandlung bereitzustellen.
  • Die Mobilvorrichtung zeigt die eine oder mehreren wahrscheinlichen Textsuchphrasen bei 504 an, und der Benutzer betrachtet die angezeigten wahrscheinlichen Textsuchphrasen bei 505, um zu bestimmen, ob die gewünschte Suchphrase sich unter der einen oder mehreren angezeigten wahrscheinlichen Textsuchphrasen befindet. Befindet sich die gewünschte Suchphrase nicht unter der einen oder den mehreren angezeigten wahrscheinlichen Textsuchphrasen, drückt der Benutzer den Lautstärkehochregelknopf und den Lautstärkeabregelknopf bei 501, so dass die Mobilvorrichtung die Eingabe empfängt, die eine neue Sprachsuche initiiert, und beginnt eine neue Sprachsuche bei 501. In einem alternativen Ausführungsbeispiel empfängt die Mobilvorrichtung eine Eingabe, wie eine Betätigung eines Knopfs oder einer Kombination von Knöpfen, um die Mobilvorrichtung zu veranlassen, wahrscheinlichere oder verschiedene wahrscheinliche Textsuchphrasen zur Anzeige zu holen.
  • Falls die gewünschte Suchphrase sich unter der einen oder den mehreren angezeigten wahrscheinlichen Textsuchphrasen bei 505 befindet und der Benutzer die gewünschte Suchphrase unter der einen oder den mehreren wahrscheinlichen. Textsuchphrasen, die angezeigt sind, auswählt, empfängt die Mobilvorrichtung eine derartige Eingabe von dem Benutzer, wie durch Erfassen einer Berührung bei einem Bereich, der mit der angezeigte Phrase auf der präsenzempfindlichen Berührschirmanzeige der Mobilvorrichtung angezeigt ist oder durch Erfassen eines Fingers, der von einem angezeigten Sprachsuchknopfbereich zu einem gewünschten Textsuchphrasenbereich gezogen oder gewischt wird. Die Mobilvorrichtung empfängt diese Benutzereingabe und führt eine Suche auf der Grundlage der ausgewählten wahrscheinlichen Textsuchphrase durch. In einigen Ausführungsbeispielen umfasst diese Suche das Suchen nach lokal gespeicherten Informationen, wie Dokumenten, Kontaktlisten, Anwendungen oder anderen Informationen. In anderen Beispielen umfasst die Suche das Senden der ausgewählten wahrscheinlichen Textsuchphrasen zu einer entfernten Suchmaschine oder einem anderen Server, der in Antwort darauf der Mobilvorrichtung Suchergebnisse bereitstellt. Weitere Ausführungsbeispiele werden sowohl lokale Informationen als auch entfernt liegende Informationen durchsuchen.
  • In einem weiteren Beispiel werden die Ergebnisse nicht unmittelbar angezeigt, wenn sich die Vorrichtung in einem gesperrten Zustand befindet, sondern sind lediglich dann betrachtbar, nachdem ein Benutzer die Mobilvorrichtung entsperrt hat, wie durch Eingabe eines Entsperr-Codes, dem Durchführen eines Wischmusters oder dem Durchführen einer anderen Entsperrmaßnahme. Die Vorrichtung kann deshalb eine Suche durchführen, während sie sich in dem gesperrten Zustand befindet, wie eine Push-to-talk-Suche, die vorstehend beschrieben ist, und entsperrt die Mobilvorrichtung, um die Ergebnisse der Suche anzuzeigen.
  • Die Systeme und Verfahren, die hier beschrieben sind, sind nicht lediglich für die Vorrichtungen geeignet, wie die in 1 bis 4 gezeigten Mobilvorrichtungen, sondern können angepasst werden an andere Mobilvorrichtungen, wie Tablet-Computer, Fernsteuerungen, Videospielsteuereinrichtungen und andere computerisierte Mobilvorrichtungen.
  • Beispiel 1: Ein Verfahren umfasst: Empfangen, durch eine mobile Computervorrichtung, einer Angabe einer ersten Benutzereingabe, die eine Betätigung eines grafischen Elements umfasst, wobei die Betätigung mit einem Spracheingabevorgang assoziiert ist, wobei die erste Benutzereingabe bei einer präsenzempfindlichen Anzeige erfasst wird; in Antwort auf das Empfangen der Angabe der ersten Benutzereingabe und vor einer Beendigung der Betätigung: Initiieren, durch die mobile Computervorrichtung, des Spracheingabevorgangs; Empfangen, durch die mobile Computervorrichtung unter Verwendung des Spracheingabevorgangs, einer benutzergesprochenen Suchphrase, die einen oder mehrere Suchausdrücke umfasst; Ausgeben, durch die mobile Computervorrichtung und zur Anzeige, von einer oder mehreren Kandidatentextsuchphrasen, die zumindest teilweise auf der Grundlage der benutzergesprochenen Suchphrase bestimmt ist oder sind; Empfangen, durch die mobile Computervorrichtung, einer Angabe einer Geste, die von einem ersten Bereich der präsenzempfindlichen Anzeige, der mit der einen oder den mehreren Kandidatentextsuchphrasen assoziiert ist, zu einem zweiten Bereich der präsenzempfindlichen Anzeige gleitet, der mit einem Piktogramm für eine Anwendung assoziiert ist; Empfangen, durch die mobile Computervorrichtung, einer Angabe einer zweiten Benutzereingabe, wobei die zweite Benutzereingabe die Beendigung der Betätigung angibt, wobei die zweite Benutzereingabe eine Vollendung der benutzergesprochenen Suchphrase angibt; und in Antwort auf das Empfangen der Angabe der zweiten Benutzereingabe, Erzeugen, durch die mobile Computervorrichtung und auf der Grundlage der benutzergesprochenen Suchphrase, einer Suchanfrage für die Anwendung, um Inhalt zu identifizieren, der mit dem einen oder den mehreren Suchausdrücken assoziiert ist.
  • Beispiel 2: Das Verfahren gemäß Beispiel 1, wobei das Empfangen der Angabe der ersten Benutzereingabe, die die Betätigung des grafischen Elements umfasst, ein Empfangen einer Benutzerbetätigungseingabe bei einem Bereich der präsenzempfindlichen Anzeige umfasst, die mit einem grafischen Element assoziiert ist, das auf der präsenzempfindlichen Anzeige angezeigt wird.
  • Beispiel 3: Das Verfahren gemäß zumindest einem der Beispiele 1 bis 2, wobei die Beendigung der Betätigung des grafischen Elements eine Beendigung der empfangenen Benutzerbetätigungseingabe bei dem Bereich der präsenzempfindlichen Anzeige umfasst, die mit dem grafischen Element assoziiert ist, das auf der präsenzempfindlichen Anzeige angezeigt ist.
  • Beispiel 4: Das Verfahren gemäß zumindest einem der Beispiele 1 bis 3, weiterhin umfassend Empfangen einer dritten Benutzereingabe, die angibt, welche der einen oder mehreren Kandidatentextsuchphrasen eine beabsichtigte Suchphrase ist, und Verwenden der beabsichtigten Suchphrase als den einen oder die mehreren Suchausdrücke, die bei der Durchführung einer Suche auf der Grundlage der Suchanfrage verwendet wird oder werden.
  • Beispiel 5: Das Verfahren gemäß Beispiel 4, wobei das Empfangen der dritten Benutzereingabe, die angibt, welche der einen oder mehreren Kandidatentextsuchphrasen eine beabsichtigte Suchphrase ist, ein Empfangen einer Angabe einer Berührung bei einem Bereich der beabsichtigten Suchphrase umfasst, die auf der präsenzempfindlichen Anzeige angezeigt ist.
  • Beispiel 6: Das Verfahren gemäß Beispiel 4, wobei das Empfangen der dritten Benutzereingabe, die angibt, welche der einen oder mehreren Kandidatentextsuchphrasen eine beabsichtigte Suchphrase ist, ein Empfangen einer Angabe eines Benutzerfingers umfasst, der von einem Bereich einer präsenzempfindlichen Anzeige, die betätigt ist, um die erste Benutzereingabe bereitzustellen, zu dem Bereich der beabsichtigten Suchphrase gleitet, die auf der präsenzempfindlichen Anzeige angezeigt ist.
  • Beispiel 7: Das Verfahren gemäß zumindest einem der Beispiele 1 bis 6, weiterhin umfassend Verwenden der erzeugten Suchanfrage, um den einen oder die mehreren Suchausdrücke in lokalen Daten der mobilen Computervorrichtung zu suchen.
  • Beispiel 8: Das Verfahren gemäß zumindest einem der Beispiele 1 bis 7, weiterhin umfassend Senden der erzeugten Suchanfrage zu einem entfernten Server, der betreibbar ist, um Daten zu suchen, die bezüglich der mobilen Computervorrichtung entfernt liegen.
  • Beispiel 9: Ein Verfahren umfasst: Empfangen, durch eine mobile Computervorrichtung, einer Angabe einer ersten Benutzereingabe, die eine Betätigung eines grafischen Elements umfasst, wobei die Betätigung einen Push-to-talk-Spracheingabevorgang initiiert, wobei die erste Benutzereingabe bei einer präsenzempfindlichen Anzeige erfasst wird; Empfangen, durch die mobile Computervorrichtung und von dem Benutzer, einer Angabe einer gesprochenen Phrase, die einen oder mehrere Ausdrücke umfasst; Ausgeben, durch die mobile Computervorrichtung und zur Anzeige, von einer oder mehreren Kandidatentextsuchphrasen, die zumindest teilweise auf der Grundlage der gesprochenen Phrase bestimmt ist oder sind; Empfangen, durch die mobile Computervorrichtung, einer Angabe einer Geste, die von einem ersten Bereich der präsenzempfindlichen Anzeige, der mit einer oder mehreren Kandidatentextsuchphrasen assoziiert ist, zu einem zweiten Bereich der präsenzempfindlichen Anzeige gleitet, der mit zumindest einem Piktogramm assoziiert ist; Empfangen, durch die mobile Computervorrichtung, einer Angabe einer zweiten Benutzereingabe, die die Push-to-talk-Spracheingabe beendet, wobei das Beenden der Push-to-talk-Spracheingabe angibt, dass der Benutzer das Sprechen der gesprochenen Phrase beendet hat; und in Antwort auf das Empfangen der Angabe der zweiten Benutzereingabe, Durchführen, durch die Computervorrichtung, einer Maßnahme, die mit dem zumindest einen Piktogramm assoziiert ist, unter Verwendung des einen oder der mehreren Ausdrücke in der gesprochenen Phrase.
  • Beispiel 10: Das Verfahren gemäß Beispiel 9, wobei die Maßnahme eines umfasst aus Durchführen einer Suche, Erstellen einer Textnachricht oder Erstellen einer Email-Nachricht.
  • Beispiel 11: Eine computerisierte Mobilvorrichtung umfasst zumindest einen Prozessor, der betreibbar ist, um: eine Angabe einer ersten Benutzereingabe zu empfangen, die eine Betätigung eines grafischen Elements umfasst, wobei die Betätigung mit einem Spracheingabevorgang assoziiert ist, wobei die erste Benutzereingabe bei einer präsenzempfindlichen Anzeige erfasst wird; in Antwort auf das Empfangen der Angabe der ersten Benutzereingabe und vor einer Beendigung der Knopfbetätigung: den Spracheingabevorgang zu initiieren; eine Angabe einer benutzergesprochenen Suchphrase zu empfangen, die einen oder mehrere Suchausdrücke umfasst, bei Empfangen der ersten Benutzereingabe; zur Anzeige die eine oder mehreren Kandidatentextsuchphrasen auszugeben, die zumindest teilweise auf der benutzergesprochenen Suchphrase basieren; eine Angabe einer Geste zu empfangen, die von einem ersten Bereich der präsenzempfindlichen Anzeige, der mit der einen oder den mehreren Kandidatentextsuchphrasen assoziiert ist, zu einem zweiten Bereich der präsenzempfindlichen Anzeige gleitet, der mit zumindest einem Piktogramm für eine Anwendung assoziiert ist; eine Angabe einer zweiten Benutzereingabe zu empfangen, die eine Beendigung der Betätigung umfasst, was eine Vollendung der benutzergesprochenen Suchphrase angibt; und in Antwort auf das Empfangen der Angabe der zweiten Benutzereingabe, auf der Grundlage der benutzergesprochenen Suchphrase eine Suchanfrage für die zumindest eine Anwendung zu erzeugen, um Inhalt zu identifizieren, der mit dem einen oder den mehreren Suchausdrücken assoziiert ist.
  • Beispiel 12: Die computerisierte Mobilvorrichtung gemäß Beispiel 11, wobei das Empfangen der Angabe der ersten Benutzereingabe, die die Betätigung umfasst, ein Empfangen einer Angabe einer Benutzerbetätigungseingabe bei einem Bereich der präsenzempfindlichen Anzeige, der mit dem grafischen Element assoziiert ist, das auf der präsenzempfindlichen Anzeige angezeigt ist, umfasst, und eine Beendigung der Betätigung ein Empfangen einer Angabe der Beendigung der empfangenen Benutzerbetätigungseingabe bei dem Bereich der präsenzempfindlichen Anzeige umfasst, der mit dem grafischen Element assoziiert ist, das auf der präsenzempfindlichen Anzeige angezeigt ist.
  • Beispiel 13: Die computerisierte Mobilvorrichtung gemäß zumindest einem der Beispiele 11 bis 12, weiterhin umfassend zumindest eines des Verwendens der erzeugten Suchanfrage, um den einen oder die mehreren Suchausdrücke in lokalen Daten der computerisierten Mobilvorrichtung zu suchen, oder des Sendens der erzeugten Suchanfrage zu einem entfernten Server, der betreibbar ist, um Daten zu suchen, die bezüglich der computerisierten Mobilvorrichtung entfernt liegen.
  • Beispiel 14: Eine maschinenlesbare Speichervorrichtung mit Anweisungen, die darauf gespeichert sind, wobei die Anweisungen bei Ausführung betreibbar sind, um eine computerisierte Mobilvorrichtung zu veranlassen, um: eine Angabe einer ersten Benutzereingabe zu empfangen, die eine Betätigung eines grafischen Elements umfasst, wobei die Betätigung mit einem Spracheingabevorgang assoziiert ist, wobei die erste Benutzereingabe bei einer präsenzempfindlichen Anzeige erfasst wird; in Antwort auf das Empfangen der Angabe der ersten Benutzereingabe und vor einer Beendigung der Betätigung: den Spracheingabevorgang zu initiieren; unter Verwendung des Spracheingabevorgangs eine Angabe einer benutzergesprochenen Suchphrase zu empfangen, die einen oder mehrere Suchausdrücke umfasst; zur Anzeige die eine oder mehreren Kandidatentextsuchphrasen auszugeben, die zumindest teilweise auf der gesprochenen Phrase basierend bestimmt sind; eine Angabe einer Geste zu empfangen, die von einem ersten Bereich einer präsenzempfindlichen Anzeige, der mit der einen oder den mehreren Kandidatentextsuchphrasen assoziiert ist, zu einem zweiten Bereich der präsenzempfindlichen Anzeige gleitet, der mit zumindest einem Piktogramm assoziiert ist; eine Angabe einer zweiten Benutzereingabe zu empfangen, die die Beendigung der Betätigung angibt, wobei die zweite Benutzereingabe eine Vollendung der benutzergesprochenen Suchphrase angibt; und in Antwort auf das Empfangen der zweiten Benutzereingabe, eine Maßnahme durchzuführen, die mit dem zumindest einen Piktogramm assoziiert ist, unter Verwendung der einen oder mehreren Ausdrücke in der gesprochenen Phrase.
  • Beispiel 15: Das maschinenlesbare Medium gemäß Beispiel 14, wobei die Maßnahme eine umfasst aus Durchführen einer Suche, Zusammenstellen einer Textnachricht und Zusammenstellen einer Email-Nachricht.
  • Beispiel 16: Das maschinenlesbare Medium gemäß zumindest einem der Beispiele 14 bis 15, wobei die Anweisungen bei Ausführung weiterhin betreibbar sind, um die computerisierte Mobilvorrichtung zu veranlassen, um: zur Anzeige die eine oder mehreren Kandidatentextphrasen auszugeben, die aus der gesprochenen Suchphrase hergeleitet ist oder sind; eine Angabe einer dritten Benutzereingabe zu empfangen, die angibt, welche der einen oder mehreren Kandidatentextphrasen eine beabsichtigte Phrase ist; und die Maßnahme unter Verwendung der beabsichtigten Phrase durchzuführen.
  • Die hier beschriebenen Beispiele können zumindest teilweise in Hardware, Software, Firmware oder jedweder Kombination derer implementiert werden. Zum Beispiel können verschiedene Ausgestaltungen der beschriebenen Techniken innerhalb eines oder mehrerer Prozessoren implementiert werden, einschließlich eines oder mehrerer Mikroprozessoren, digitaler Signalprozessoren (DSPs), anwendungsspezifischer integrierter Schaltungen (ASICs), feldprogrammierbarer Gate-Arrays (FPGAs) oder jedweder anderer äquivalenter integrierter oder diskreter Logikschaltung sowie jedweder Kombinationen derartiger Komponenten. Der Ausdruck ”Prozessor” oder ”Verarbeitungsschaltung” kann sich allgemein auf jedwede der vorstehend beschriebenen Logikschaltungen allein oder in Kombination mit anderen Logikschaltungen oder jedwede andere äquivalente Schaltung beziehen. Eine Steuereinheit, die Hardware umfasst, kann ebenso eines oder mehrere der vorstehend beschriebenen Beispiele durchführen.
  • Derartige Hardware, Software oder Firmware kann innerhalb der gleichen Vorrichtung oder innerhalb getrennter Vorrichtungen implementiert werden, um die verschiedenen Beispiele zu unterstützen. Zudem können jedwede der beschriebenen Einheiten, Module oder Komponenten zusammen oder getrennt als diskrete aber gemeinsam betriebsfähige Logikvorrichtungen implementiert werden. Die Beschreibung verschiedener Merkmale als Module oder Einheiten beabsichtigt, die verschiedenen funktionalen Ausgestaltungen hervorzuheben, und impliziert nicht notwendigerweise, dass derartige Module oder Einheiten durch separate Hardware-, Firmware- oder Software-Komponenten realisiert werden müssten. Stattdessen kann die Funktionalität, die mit einem oder mehreren Modulen oder Einheiten assoziiert ist, durch getrennte Hardware-, Firmware- oder Software-Komponenten durchgeführt werden, oder innerhalb gemeinsamer oder getrennter Hardware-, Firmware- oder Software-Komponenten integriert werden.
  • Die hier beschriebenen Beispiele können ebenso in einem Herstellungsartikel ein Ausführungsbeispiel finden oder kodiert werden, einschließlich eines computerlesbaren Speichermediums, das mit Anweisungen kodiert ist. Die Anweisungen, die in einem Herstellungsartikel eingebettet oder kodiert sind, einschließlich eines kodierten computerlesbaren Speichermediums, können einen oder mehrere programmierbare Prozessoren oder andere Prozessoren veranlassen, eine oder mehrere der hier beschriebenen Techniken zu implementieren, so wie wenn Anweisungen, die in dem computerlesbaren Speichermedium umfasst oder kodiert sind, durch den einen oder die mehreren Prozessoren ausgeführt werden. Computerlesbare Speichermedien können einen Speicher mit wahlfreiem Zugriff (RAM), einen Festwertspeicher (ROM), einen programmierbaren Festwertspeicher (PROM), einen löschbaren programmierbaren Festwertspeicher (EPROM), einen elektronisch löschbaren programmierbaren Festwertspeicher (EEPROM), einen Flash-Speicher, eine Festplatte, eine Kompaktdisk-ROM (CD-ROM), eine Diskette, eine Kassette, magnetische Medien, optische Medien oder andere computerlesbare Medien umfassen. In einigen Beispielen kann ein Herstellungsartikel ein oder mehrere computerlesbare Speichermedien umfassen.
  • In einigen Beispielen kann ein computerlesbares Speichermedium ein nicht-vergängliches Medium umfassen. Der Ausdruck ”nicht-vergänglich” kann angeben, dass das Speichermedium kein Ausführungsbeispiel in einer Trägerwelle oder einem sich fortpflanzenden Signal findet. In bestimmten Beispielen kann ein nicht-vergängliches Speichermedium Daten speichern, die sich über die Zeit ändern können (z. B. in einem Speicher mit wahlfreiem Zugriff oder einem Flash-Speicher).
  • Die hier dargestellten Beispiele zeigen, wie eine Push-to-talk-Spracheingabe verwendet werden kann, um eine effizientere Eingabe in eine mobile Computervorrichtung vorzusehen. Obwohl spezifische Ausführungsbeispiele hier gezeigt und beschrieben wurden, ist es für den Fachmann ersichtlich, dass jedwede Anordnung, die den gleichen Zweck, die gleiche Struktur oder die gleiche Funktion erreichen kann, für die spezifischen, gezeigten Ausführungsbeispiele eingesetzt werden kann. Diese Anmeldung beabsichtigt, jedwede Anpassungen oder Variationen der hier beschriebenen Ausführungsbeispiele mit abzudecken.

Claims (16)

  1. Verfahren, umfassend: Empfangen, durch eine mobile Computervorrichtung, einer Angabe einer ersten Benutzereingabe, die eine Betätigung eines grafischen Elements umfasst, wobei die Betätigung mit einem Spracheingabevorgang assoziiert ist, wobei die erste Benutzereingabe bei einer präsenzempfindlichen Anzeige erfasst wird; in Antwort auf das Empfangen der Angabe der ersten Benutzereingabe und vor einer Beendigung der Betätigung: Initiieren, durch die mobile Computervorrichtung, des Spracheingabevorgangs; Empfangen, durch die mobile Computervorrichtung unter Verwendung des Spracheingabevorgangs, einer benutzergesprochenen Suchphrase, die einen oder mehrere Suchausdrücke umfasst; Ausgeben, durch die mobile Computervorrichtung und zur Anzeige, einer oder mehrerer Kandidatentextsuchphrasen, die zumindest teilweise auf der Grundlage der benutzergesprochenen Suchphrase bestimmt ist oder sind; Empfangen, durch die mobile Computervorrichtung, einer Angabe einer Geste, die von einem ersten Bereich der präsenzempfindlichen Anzeige, der mit der einen oder den mehreren Kandidatentextsuchphrasen assoziiert ist, zu einem zweiten Bereich der präsenzempfindlichen Anzeige gleitet, der mit einem Piktogramm für eine Anwendung assoziiert ist; Empfangen, durch die mobile Computervorrichtung, einer Angabe einer zweiten Benutzereingabe, wobei die zweite Benutzereingabe die Beendigung der Betätigung angibt, wobei die zweite Benutzereingabe eine Vollendung der benutzergesprochenen Suchphrase angibt; und in Antwort auf das Empfangen der Angabe der zweiten Benutzereingabe, Erzeugen, durch die mobile Computervorrichtung und auf der Grundlage der benutzergesprochenen Suchphrase, einer Suchanfrage für die Anwendung, um Inhalt zu identifizieren, der mit dem einen oder den mehreren Suchausdrücken assoziiert ist.
  2. Verfahren gemäß Anspruch 1, wobei das Empfangen der Angabe der ersten Benutzereingabe, die die Betätigung des grafischen Elements umfasst, ein Empfangen einer Benutzerbetätigungseingabe bei einem Bereich der präsenzempfindlichen Anzeige umfasst, der mit dem grafischen Element assoziiert ist, das bei der präsenzempfindlichen Anzeige angezeigt ist.
  3. Verfahren gemäß Anspruch 2, wobei die Beendigung der Betätigung des grafischen Elements eine Beendigung der empfangenen Benutzerbetätigungseingabe bei dem Bereich der präsenzempfindlichen Anzeige umfasst, der mit dem grafischen Element assoziiert ist, das bei der präsenzempfindlichen Anzeige angezeigt ist.
  4. Verfahren gemäß Anspruch 1, weiterhin umfassend Empfangen einer dritten Benutzereingabe, die angibt, welche der einen oder mehreren Kandidatentextsuchphrasen eine beabsichtigte Suchphrase ist, und Verwenden der beabsichtigten Suchphrase als den einen oder die mehreren Suchausdrücke, die bei dem Durchführen einer Suche auf der Grundlage der Suchanfrage verwendet wird oder werden.
  5. Verfahren gemäß Anspruch 4, wobei das Empfangen der dritten Benutzereingabe, die angibt, welche der einen oder mehreren Kandidatentextsuchphrasen eine beabsichtigte Suchphrase ist, ein Empfangen einer Angabe einer Berührung bei einem Bereich der beabsichtigten Suchphrase umfasst, die auf der präsenzempfindlichen Anzeige angezeigt ist.
  6. Verfahren gemäß Anspruch 4, wobei das Empfangen der dritten Benutzereingabe, die angibt, welche der einen oder mehreren Kandidatentextsuchphrasen eine beabsichtigte Suchphrase ist, ein Empfangen einer Angabe eines Benutzerfingers umfasst, der von einem Bereich einer präsenzempfindlichen Anzeige, der betätigt ist, um die erste Benutzereingabe vorzusehen, zu einem Bereich der beabsichtigten Suchphrase gleitet, die auf der präsenzempfindlichen Anzeige angezeigt ist.
  7. Verfahren gemäß Anspruch 1, weiterhin umfassend Verwenden der erzeugten Suchanfrage, um nach dem einen oder den mehreren Suchausdrücken in lokalen Daten der mobilen Computervorrichtung zu suchen.
  8. Verfahren gemäß Anspruch 1, weiterhin umfassend Senden der erzeugten Suchanfrage zu einem entfernten Server, der betreibbar ist, um Daten zu suchen, die bezüglich der mobilen Computervorrichtung entfernt liegen.
  9. Verfahren, umfassend: Empfangen, durch eine mobile Computervorrichtung, einer Angabe einer ersten Benutzereingabe, die eine Betätigung eines grafischen Elements umfasst, wobei die Betätigung einen Push-to-talk-Spracheingabevorgang initiiert, wobei die erste Benutzereingabe bei einer präsenzempfindlichen Anzeige erfasst wird; Empfangen, durch die mobile Computervorrichtung und von einem Benutzer, einer Angabe einer gesprochenen Phrase, die einen oder mehrere Ausdrücke umfasst; Ausgeben, durch die mobile Computervorrichtung und zur Anzeige, einer oder mehrerer Kandidatentextsuchphrasen, die zumindest teilweise auf der Grundlage der gesprochenen Phrase bestimmt ist oder sind; Empfangen, durch die mobile Computervorrichtung, einer Angabe einer Geste, die von einem ersten Bereich der präsenzempfindlichen Anzeige, der mit der einen oder den mehreren Kandidatentextsuchphrasen assoziiert ist, zu einem zweiten Bereich der präsenzempfindlichen Anzeige gleitet, der mit zumindest einem Piktogramm assoziiert ist; Empfangen, durch die mobile Computervorrichtung, einer Angabe einer zweiten Benutzereingabe, die die Push-to-talk-Spracheingabe beendet, wobei das Beenden der Push-to-talk-Spracheingabe angibt, dass der Benutzer das Sprechen der gesprochen Phrase beendet hat; und in Antwort auf das Empfangen der Angabe der zweiten Benutzereingabe, Durchführen, durch die Computervorrichtung, einer Maßnahme, die mit dem zumindest einem Piktogramm assoziiert ist unter Verwendung des einen oder der mehreren Ausdrücke in der gesprochenen Phrase.
  10. Verfahren gemäß Anspruch 9, wobei die Maßnahme eines umfasst aus Durchführen einer Suche, Zusammenstellen einer Textnachricht oder Zusammenstellen einer Email-Nachricht.
  11. Computerisierte Mobilvorrichtung, umfassend zumindest einen Prozessor, der betreibbar ist, um: eine Angabe einer ersten Benutzereingabe zu empfangen, die eine Betätigung eines grafischen Elements umfasst, wobei die Betätigung mit einem Spracheingabevorgang assoziiert ist, wobei die erste Benutzereingabe bei einer präsenzempfindlichen Anzeige erfasst wird; in Antwort auf das Empfangen der Angabe der ersten Benutzereingabe und vor einer Beendigung der Knopfbetätigung: den Spracheingabevorgang zu initiieren; eine Angabe einer benutzergesprochenen Suchphrase zu empfangen, die einen oder mehrere Suchausdrücke umfasst, bei Empfang der ersten Benutzereingabe; zur Anzeige die eine oder mehreren Kandidatentextsuchphrasen zumindest teilweise auf der Grundlage der benutzergesprochenen Suchphrase auszugeben; eine Angabe einer Geste zu empfangen, die von einem ersten Bereich der präsenzempfindlichen Anzeige, der mit der einen oder den mehreren Kandidatentextsuchphrasen assoziiert ist, zu einem zweiten Bereich der präsenzempfindlichen Anzeige gleitet, der mit zumindest einem Piktogramm für eine Anwendung assoziiert ist; eine Angabe einer zweiten Benutzereingabe zu empfangen, die eine Beendigung der Betätigung umfasst, die eine Vollendung der benutzergesprochenen Suchphrase angibt; und in Antwort auf das Empfangen der Angabe der zweiten Benutzereingabe, auf der Grundlage der benutzergesprochenen Suchphrase eine Suchanfrage für die zumindest eine Anwendung zu erzeugen, um Inhalt zu identifizieren, der mit dem einen oder den mehreren Suchausdrücken assoziiert ist.
  12. Computerisierte Mobilvorrichtung gemäß Anspruch 11, wobei das Empfangen der Angabe der ersten Benutzereingabe, die die Betätigung umfasst, ein Empfangen einer Angabe einer Benutzerbetätigungseingabe bei einem Bereich der präsenzempfindlichen Anzeige, der mit dem grafischen Element assoziiert ist, das auf der präsenzempfindlichen Anzeige angezeigt ist, umfasst, und die Beendigung der Betätigung ein Empfangen einer Angabe der Beendigung der empfangenen Benutzerbetätigungseingabe bei dem Bereich der präsenzempfindlichen Anzeige umfasst, der mit dem grafischen Element assoziiert ist, das auf der präsenzempfindlichen Anzeige angezeigt ist.
  13. Computerisierte Mobilvorrichtung gemäß Anspruch 11, weiterhin umfassend zumindest eines aus Verwenden der erzeugten Suchanfrage, um den einen oder die mehreren Suchausdrücke in lokalen Daten der computerisierten Mobilvorrichtung zu suchen, oder Senden der erzeugten Suchanfrage zu einem entfernten Server, der betreibbar ist, um Daten zu suchen, die bezüglich der computerisierten Mobilvorrichtung entfernt liegen.
  14. Maschinenlesbare Speichervorrichtung mit darauf gespeicherten Anweisungen, wobei die Anweisungen bei Ausführung betreibbar sind, um eine computerisierte Mobilvorrichtung zu veranlassen, um: eine Angabe einer ersten Benutzereingabe zu empfangen, die eine Betätigung eines grafischen Elements umfasst, wobei die Betätigung mit einem Spracheingabevorgang assoziiert ist, wobei die erste Benutzereingabe bei einer präsenzempfindlichen Anzeige erfasst wird; in Antwort auf das Empfangen der Angabe der ersten Benutzereingabe und vor einer Beendigung der Betätigung: den Spracheingabevorgang zu initiieren; unter Verwendung des Spracheingabevorgangs eine Angabe einer benutzergesprochenen Suchphrase zu empfangen, die einen oder mehrere Suchausdrücke umfasst; zur Anzeige die eine oder mehreren Kandidatentextsuchphrasen auszugeben, die zumindest teilweise auf der Grundlage der gesprochenen Phrase bestimmt ist oder sind; eine Angabe einer Geste zu empfangen, die von einem ersten Bereich einer präsenzempfindlichen Anzeige, der mit der einen oder den mehreren Kandidatentextsuchphrasen assoziiert ist, zu einem zweiten Bereich der präsenzempfindlichen Anzeige gleitet, der mit zumindest einem Piktogramm assoziiert ist; eine Angabe einer zweiten Benutzereingabe zu empfangen, die die Beendigung der Betätigung angibt, wobei die zweite Benutzereingabe eine Vollendung der benutzergesprochenen Suchphrase angibt; und in Antwort auf das Empfangen der Angabe der zweiten Benutzereingabe, eine Maßnahme durchzuführen, die mit dem zumindest einen Piktogramm assoziiert ist, unter Verwendung des einen oder der mehreren Ausdrücke in der gesprochenen Phrase.
  15. Maschinenlesbares Medium gemäß Anspruch 14, wobei die Maßnahme eines umfasst aus Durchführen einer Suche, Zusammenstellen einer Textnachricht und Zusammenstellen einer Email-Nachricht.
  16. Maschinenlesbares Medium gemäß Anspruch 14, wobei die Anweisungen bei Ausführung weiterhin betreibbar sind, um die computerisierte Mobilvorrichtung zu veranlassen, um: zur Anzeige eine oder mehrere Kandidatentextphrasen auszugeben, die aus der gesprochenen Phrase hergeleitet sind; eine Angabe einer dritten Benutzereingabe zu empfangen, die angibt, welche der einen oder mehreren Kandidatentextphrasen eine beabsichtigte Phrase ist; und die Maßnahme unter Verwendung der beabsichtigten Phrase durchzuführen.
DE102013016913.5A 2012-10-11 2013-10-11 Sprachaktivierung für Mobilvorrichtungen Active DE102013016913B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/649,938 US8543397B1 (en) 2012-10-11 2012-10-11 Mobile device voice activation
US13/649,938 2012-10-11

Publications (2)

Publication Number Publication Date
DE102013016913A1 true DE102013016913A1 (de) 2014-04-17
DE102013016913B4 DE102013016913B4 (de) 2016-09-29

Family

ID=49181542

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102013016913.5A Active DE102013016913B4 (de) 2012-10-11 2013-10-11 Sprachaktivierung für Mobilvorrichtungen

Country Status (4)

Country Link
US (1) US8543397B1 (de)
CN (1) CN103729126B (de)
DE (1) DE102013016913B4 (de)
GB (1) GB2507002B (de)

Families Citing this family (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8402533B2 (en) 2010-08-06 2013-03-19 Google Inc. Input to locked computing device
US9323746B2 (en) * 2011-12-06 2016-04-26 At&T Intellectual Property I, L.P. System and method for collaborative language translation
KR102022318B1 (ko) * 2012-01-11 2019-09-18 삼성전자 주식회사 음성 인식을 사용하여 사용자 기능을 수행하는 방법 및 장치
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9294864B2 (en) * 2012-10-30 2016-03-22 Verizon Patent And Licensing Inc. Methods and systems for detecting and preventing unintended dialing by a phone device
EP2945090A4 (de) * 2013-01-10 2016-08-17 Nec Corp Endgerät, entriegelungsverfahren und programm
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
CN103139390A (zh) * 2013-02-27 2013-06-05 Tcl通讯(宁波)有限公司 一种解锁手机屏幕的方法、系统及手机
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
AU2014278592B2 (en) 2013-06-09 2017-09-07 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9774728B2 (en) 2013-09-30 2017-09-26 Elwha Llc Mobile device sharing facilitation methods and systems in a context of plural communication records
US9813891B2 (en) 2013-09-30 2017-11-07 Elwha Llc Mobile device sharing facilitation methods and systems featuring a subset-specific source identification
US9740875B2 (en) 2013-09-30 2017-08-22 Elwha Llc Mobile device sharing facilitation methods and systems featuring exclusive data presentation
US9826439B2 (en) 2013-09-30 2017-11-21 Elwha Llc Mobile device sharing facilitation methods and systems operable in network equipment
US9805208B2 (en) 2013-09-30 2017-10-31 Elwha Llc Mobile device sharing facilitation methods and systems with recipient-dependent inclusion of a data selection
US9838536B2 (en) 2013-09-30 2017-12-05 Elwha, Llc Mobile device sharing facilitation methods and systems
US9690854B2 (en) * 2013-11-27 2017-06-27 Nuance Communications, Inc. Voice-enabled dialog interaction with web pages
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
CN104735634B (zh) * 2013-12-24 2019-06-25 腾讯科技(深圳)有限公司 一种关联支付账号管理方法、移动终端、服务器以及系统
EP3393112B1 (de) * 2014-05-23 2020-12-30 Samsung Electronics Co., Ltd. System und verfahren zur bereitstellung von sprachnachrichtanrufdiensten
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US9355640B2 (en) * 2014-06-04 2016-05-31 Google Inc. Invoking action responsive to co-presence determination
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886461B1 (en) 2014-07-11 2018-02-06 Google Llc Indexing mobile onscreen content
US9620119B2 (en) * 2014-09-26 2017-04-11 Honeywell International Inc. Systems and methods for converting taxiway voice commands into taxiway textual commands
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
KR102301880B1 (ko) 2014-10-14 2021-09-14 삼성전자 주식회사 전자 장치 및 이의 음성 대화 방법
US10999636B1 (en) 2014-10-27 2021-05-04 Amazon Technologies, Inc. Voice-based content searching on a television based on receiving candidate search strings from a remote server
US9842593B2 (en) 2014-11-14 2017-12-12 At&T Intellectual Property I, L.P. Multi-level content analysis and response
KR20160086166A (ko) * 2015-01-09 2016-07-19 엘지전자 주식회사 이동단말기 및 그 제어방법
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10504509B2 (en) 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
DE102015212650B4 (de) * 2015-07-07 2020-02-13 Volkswagen Aktiengesellschaft Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe
CN105069013B (zh) * 2015-07-10 2019-03-12 百度在线网络技术(北京)有限公司 在搜索界面中提供输入接口的控制方法和装置
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10970646B2 (en) * 2015-10-01 2021-04-06 Google Llc Action suggestions for user-selected content
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN105446489B (zh) * 2015-12-08 2017-09-22 广州神马移动信息科技有限公司 语音双模控制方法、装置及用户终端
US10223066B2 (en) * 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
KR101758013B1 (ko) * 2016-03-03 2017-07-13 네이버 주식회사 질의어 삭제 인터랙션
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US9910636B1 (en) 2016-06-10 2018-03-06 Jeremy M. Chevalier Voice activated audio controller
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
CN107919116B (zh) * 2016-10-11 2019-09-13 芋头科技(杭州)有限公司 一种语音激活检测方法及装置
US10535005B1 (en) 2016-10-26 2020-01-14 Google Llc Providing contextual actions for mobile onscreen content
CN106782529B (zh) * 2016-12-23 2020-03-10 北京云知声信息技术有限公司 语音识别的唤醒词选择方法及装置
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10403276B2 (en) * 2017-03-17 2019-09-03 Microsoft Technology Licensing, Llc Voice enabled features based on proximity
KR102345883B1 (ko) * 2017-04-28 2022-01-03 삼성전자주식회사 그래픽 표시를 출력하는 전자 장치
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
CN109600507A (zh) * 2017-09-30 2019-04-09 深圳市沃特实业有限公司 一种基于移动终端锁屏状态下的通讯方法及移动终端
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN109976861B (zh) * 2019-03-28 2023-01-10 北京小米移动软件有限公司 交互界面显示方法、装置及存储介质
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
KR20210051319A (ko) * 2019-10-30 2021-05-10 엘지전자 주식회사 인공 지능 장치
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58115497A (ja) 1981-12-28 1983-07-09 シャープ株式会社 音声認識方法
US4726065A (en) 1984-01-26 1988-02-16 Horst Froessl Image manipulation by speech signals
JPH06131437A (ja) 1992-10-20 1994-05-13 Hitachi Ltd 複合形態による操作指示方法
US5335276A (en) * 1992-12-16 1994-08-02 Texas Instruments Incorporated Communication system and methods for enhanced information transfer
US5749072A (en) 1994-06-03 1998-05-05 Motorola Inc. Communications device responsive to spoken commands and methods of using same
DE19508711A1 (de) 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind
US6167374A (en) 1997-02-13 2000-12-26 Siemens Information And Communication Networks, Inc. Signal processing method and system utilizing logical speech boundaries
JP3516328B2 (ja) 1997-08-22 2004-04-05 株式会社日立製作所 情報通信端末装置
US6396477B1 (en) 1998-09-14 2002-05-28 Microsoft Corp. Method of interacting with a computer using a proximity sensor in a computer input device
DE19854341A1 (de) 1998-11-25 2000-06-08 Alcatel Sa Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
US6321197B1 (en) 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
JP2000276493A (ja) 1999-01-29 2000-10-06 Canon Inc 電子的にアクセスできるリソースのブラウジング方法
US6421672B1 (en) 1999-07-27 2002-07-16 Verizon Services Corp. Apparatus for and method of disambiguation of directory listing searches utilizing multiple selectable secondary search keys
US7292986B1 (en) 1999-10-20 2007-11-06 Microsoft Corporation Method and apparatus for displaying speech recognition progress
JP2003518266A (ja) 1999-12-20 2003-06-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識システムのテキスト編集用音声再生
US6813603B1 (en) 2000-01-26 2004-11-02 Korteam International, Inc. System and method for user controlled insertion of standardized text in user selected fields while dictating text entries for completing a form
GB0029573D0 (en) 2000-12-02 2001-01-17 Hewlett Packard Co Activation of voice-controlled apparatus
US6834264B2 (en) 2001-03-29 2004-12-21 Provox Technologies Corporation Method and apparatus for voice dictation and document production
US6915258B2 (en) 2001-04-02 2005-07-05 Thanassis Vasilios Kontonassios Method and apparatus for displaying and manipulating account information using the human voice
US6804653B2 (en) * 2001-04-27 2004-10-12 International Business Machines Corporation Physical user feedback in a speech recognition system
WO2004023455A2 (en) 2002-09-06 2004-03-18 Voice Signal Technologies, Inc. Methods, systems, and programming for performing speech recognition
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US7023498B2 (en) * 2001-11-19 2006-04-04 Matsushita Electric Industrial Co. Ltd. Remote-controlled apparatus, a remote control system, and a remote-controlled image-processing apparatus
US7177814B2 (en) 2002-02-07 2007-02-13 Sap Aktiengesellschaft Dynamic grammar for voice-enabled applications
US20040230637A1 (en) 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
US20040243415A1 (en) 2003-06-02 2004-12-02 International Business Machines Corporation Architecture for a speech input method editor for handheld portable devices
US7904296B2 (en) * 2003-07-23 2011-03-08 Nexidia Inc. Spoken word spotting queries
US7676754B2 (en) 2004-05-04 2010-03-09 International Business Machines Corporation Method and program product for resolving ambiguities through fading marks in a user interface
US7610199B2 (en) * 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
US20060206339A1 (en) * 2005-03-11 2006-09-14 Silvera Marja M System and method for voice-enabled media content selection on mobile devices
US20060247925A1 (en) 2005-04-27 2006-11-02 International Business Machines Corporation Virtual push-to-talk
KR20060133389A (ko) * 2005-06-20 2006-12-26 엘지전자 주식회사 이동 단말기의 데이터 처리 장치 및 그 방법
US20070124507A1 (en) 2005-11-28 2007-05-31 Sap Ag Systems and methods of processing annotations and multimodal user inputs
US20080134102A1 (en) 2006-12-05 2008-06-05 Sony Ericsson Mobile Communications Ab Method and system for detecting movement of an object
US8417529B2 (en) 2006-12-27 2013-04-09 Nuance Communications, Inc. System and methods for prompting user speech in multimodal devices
US8326636B2 (en) * 2008-01-16 2012-12-04 Canyon Ip Holdings Llc Using a physical phenomenon detector to control operation of a speech recognition engine
US8224656B2 (en) * 2008-03-14 2012-07-17 Microsoft Corporation Speech recognition disambiguation on mobile devices
US8259082B2 (en) 2008-09-12 2012-09-04 At&T Intellectual Property I, L.P. Multimodal portable communication interface for accessing video content
KR101545582B1 (ko) * 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
US8294683B2 (en) 2009-09-25 2012-10-23 Mitac International Corp. Method of processing touch commands and voice commands in parallel in an electronic device supporting speech recognition
US9111538B2 (en) * 2009-09-30 2015-08-18 T-Mobile Usa, Inc. Genius button secondary commands
US20110097693A1 (en) 2009-10-28 2011-04-28 Richard Henry Dana Crawford Aligning chunk translations for language learners
US8428759B2 (en) * 2010-03-26 2013-04-23 Google Inc. Predictive pre-recording of audio for voice input
US8849661B2 (en) * 2010-05-14 2014-09-30 Fujitsu Limited Method and system for assisting input of text information from voice data
US9263034B1 (en) * 2010-07-13 2016-02-16 Google Inc. Adapting enhanced acoustic models
US20120030567A1 (en) * 2010-07-28 2012-02-02 Victor B Michael System with contextual dashboard and dropboard features
US20120215531A1 (en) 2011-02-18 2012-08-23 Nuance Communications, Inc. Increased User Interface Responsiveness for System with Multi-Modal Input and High Response Latencies
US9274746B2 (en) 2011-02-18 2016-03-01 Nuance Communications, Inc. Latency hiding techniques for multi-modal user interfaces
US20120260176A1 (en) 2011-04-08 2012-10-11 Google Inc. Gesture-activated input using audio recognition
US8255218B1 (en) 2011-09-26 2012-08-28 Google Inc. Directing dictation into input fields

Also Published As

Publication number Publication date
GB2507002A (en) 2014-04-16
CN103729126B (zh) 2017-10-24
US8543397B1 (en) 2013-09-24
CN103729126A (zh) 2014-04-16
GB201318007D0 (en) 2013-11-27
GB2507002B (en) 2015-10-14
DE102013016913B4 (de) 2016-09-29

Similar Documents

Publication Publication Date Title
DE102013016913B4 (de) Sprachaktivierung für Mobilvorrichtungen
DE112016003459B4 (de) Sprecherkennung
US10866785B2 (en) Equal access to speech and touch input
KR102231733B1 (ko) 환경 인식 다이얼로그 정책 및 응답 생성
KR101889054B1 (ko) 잠금 컴퓨팅 디바이스에 대한 입력
DE202017004558U1 (de) Intelligenter automatisierter Assistent
DE202017000991U1 (de) Identifikation von Spracheingaben zum Bereitstellen von Anmeldeinformationen
DE102017105924A1 (de) Computergeräte mit Wischoberflächen und Verfahren für deren Betrieb
US8645361B2 (en) Using popular queries to decide when to federate queries
DE112016001104T5 (de) Aktivierung von virtuellen Assistenten
DE112016001105T5 (de) Reagieren von konkurrierenden Vorrichtungen auf Sprachauslöser
DE102016214955A1 (de) Latenzfreier digitaler Assistent
CN110058834A (zh) 智能设备仲裁和控制
US20110302518A1 (en) Selecting alternate keyboard characters via motion input
US20140143856A1 (en) Operational shortcuts for computing devices
DE202008000269U1 (de) Tragbare elektronische Vorrichtung
DE102013004214A1 (de) Alternative Entsperrungsmuster
KR102427829B1 (ko) 사용자 단말 장치, 전자 장치, 시스템 및 그 제어 방법
DE202013011826U1 (de) Vorrichtung und grafische Benutzerschnittstelle zum Zugreifen auf eine Anwendung in einer gesperrten Vorrichtung
JP6640893B2 (ja) 文字を入力する方法及び装置
CN104205010A (zh) 语音启用的触摸屏用户界面
DE112016002588T5 (de) Kontextgetriebenes nachrichtenübermittlungssystem
DE112016002384T5 (de) Hilfsschicht mit automatisierter Extraktion
CN104461258B (zh) 用于操作计算机的方法和系统
CN105453098A (zh) 基于使用图标与通行码的安全增强

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R082 Change of representative

Representative=s name: MAIKOWSKI & NINNEMANN PATENTANWAELTE PARTNERSC, DE

R020 Patent grant now final
R081 Change of applicant/patentee

Owner name: GOOGLE LLC (N.D.GES.D. STAATES DELAWARE), MOUN, US

Free format text: FORMER OWNER: GOOGLE INC., MOUNTAIN VIEW, CALIF., US

R082 Change of representative

Representative=s name: MAIKOWSKI & NINNEMANN PATENTANWAELTE PARTNERSC, DE