DE102016122708A1 - Verlängern des Spracherkennungszeitraums - Google Patents

Verlängern des Spracherkennungszeitraums Download PDF

Info

Publication number
DE102016122708A1
DE102016122708A1 DE102016122708.0A DE102016122708A DE102016122708A1 DE 102016122708 A1 DE102016122708 A1 DE 102016122708A1 DE 102016122708 A DE102016122708 A DE 102016122708A DE 102016122708 A1 DE102016122708 A1 DE 102016122708A1
Authority
DE
Germany
Prior art keywords
command
action
relationship
processor
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102016122708.0A
Other languages
English (en)
Inventor
Russell Speight VanBlon
Nathan J. Peterson
Arnold S. Weksler
John Carl Mese
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of DE102016122708A1 publication Critical patent/DE102016122708A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)

Abstract

Eine Ausführungsform stellt ein Verfahren bereit, das folgende Schritte umfasst: Empfangen eines Aktivierungsstichworts an einer Audioaufnahmevorrichtung; Empfangen an der Audioaufnahmevorrichtung mindestens eines Befehls nach dem Aktivierungsstichwort; Ausführen, unter Verwendung eines Prozessors, einer Aktion, basierend auf dem mindestens einen Befehl; Empfangen an der Audioaufnahmevorrichtung mindestens eines anderen Befehls; und Ausführen, unter Verwendung des Prozessors, einer anderen Aktion basierend auf dem anderen Befehl, ohne ein anderes Aktivierungsstichwort zu benötigen. Es werden weitere Aspekte beschrieben und beansprucht.

Description

  • HINTERGRUND
  • Elektronische Geräte, wie etwa Laptops, Tablets, Smartphones, persönliche Assistenten usw., nehmen Benutzereingaben (z.B. an Audioeingabegeräten) an. Typischerweise stellen die Benutzer Eingaben für diese Geräte bereit, um das Gerät zu steuern sowie Daten einzugeben (z.B. Anfragen von Informationen, Zugreifen auf Informationen oder Bereitstellen von Informationen für eine Kommunikationsanwendung).
  • Zu den wachstumsstärksten Benutzereingabeverfahren gehören Sprachbefehle. Die Technologie der Sprachbefehle ermöglicht die Betätigung eines Gerätes durch Benutzersprachanweisungen. Die Anzahl und die Art der Geräte, die in der Lage sind, eine Sprachsteuerung anzunehmen, haben im Verlauf der Zeit ständig zugenommen. Dies gilt insbesondere für Mobiltelefone und eigenständige Personal Digital Assistants. Da es nicht mehr notwendig ist, Tasten oder Schalter zu verwenden, um ein Gerät zu steuern, kann ein Benutzer parallele Arbeitsschritte sicher und effizient auszuführen. Die Verwendung dieser Geräte kann jedoch immer noch als unnatürlich oder seltsam empfunden werden, insbesondere wenn ein Benutzer das Gerät wiederholt aktivieren muss (z.B. indem er ein Schlüsselwort oder einen Auslöseausdruck, wie etwa „Ok Google”, verwendet). GOOGLE ist ein eingetragenes Warenzeichen von Google Inc. in den Vereinigten Staaten und anderen Ländern.
  • KURZDARSTELLUNG
  • Kurz gesagt stellt ein Aspekt ein Verfahren bereit, das folgende Schritte umfasst: Empfangen eines Aktivierungsstichworts an einem Audioaufnahmegerät; Empfangen mindestens eines Befehls an dem Audioaufnahmegerät nach dem Aktivierungsstichwort; Ausführen, unter Verwendung eines Prozessors, einer Aktion, basierend auf dem mindestens einen Befehl; Empfangen mindestens eines anderen Befehls an dem Audioaufnahmegerät; und Ausführen, unter Verwendung des Prozessors, einer anderen Aktion, basierend auf dem anderen Befehl, ohne ein anderes Aktivierungsstichwort zu benötigen.
  • Ein anderer Aspekt stellt ein Informationshandhabungsgerät bereit, das Folgendes umfasst: einen Prozessor; ein Audioaufnahmegerät; ein Speichergerät, das Anweisungen speichert, die durch den Prozessor ausführbar sind, zum: Empfangen eines Aktivierungsstichworts an dem Audioaufnahmegerät; Empfangen mindestens eines Befehls an dem Audioaufnahmegerät nach dem Aktivierungsstichwort; Ausführen, unter Verwendung des Prozessors, einer Aktion, basierend auf dem mindestens einen Befehl; Empfangen mindestens eines anderen Befehls an dem Audioaufnahmegerät; und Ausführen, unter Verwendung des Prozessors, einer anderen Aktion, basierend auf dem anderen Befehl, ohne ein anderes Aktivierungsstichwort zu benötigen.
  • Ein weiterer Aspekt stellt ein Produkt bereit, das Folgendes umfasst: ein Speichergerät, auf dem Code gespeichert ist, wobei der Code von einem Prozessor ausführbar ist und Folgendes umfasst: Code, der ein Aktivierungsstichwort an einem Audioaufnahmegerät empfängt; Code, der mindestens einen Befehl an dem Audioaufnahmegerät nach dem Aktivierungsstichwort empfängt; Code, der unter Verwendung eines Prozessors eine Aktion basierend auf dem mindestens einen Befehl ausführt; Code, der mindestens einen anderen Befehl an dem Audioaufnahmegerät empfängt; und Code, der unter Verwendung des Prozessors eine andere Aktion basierend auf dem anderen Befehl ausführt, ohne ein anderes Aktivierungsstichwort zu benötigen.
  • Das Vorstehende ist eine Kurzdarstellung und kann somit Vereinfachungen, Verallgemeinerungen und fehlende Einzelheiten enthalten; folglich wird der Fachmann verstehen, dass die Kurzdarstellung rein erläuternd ist und keineswegs dazu gedacht ist, einschränkend zu sein.
  • Zum besseren Verständnis der Ausführungsformen zusammen mit anderen und weiteren Merkmalen und Vorteilen derselben wird auf die nachstehende Beschreibung in Verbindung mit den beiliegenden Zeichnungen gesehen Bezug genommen. Der Umfang der Erfindung wird in den beiliegenden Ansprüchen ausgewiesen.
  • KURZE BESCHREIBUNG DER VERSCHIEDENEN ANSICHTEN DER ZEICHNUNGEN
  • Es zeigen:
  • 1 ein Beispiel der Schaltungen eines Informationshandhabungsgerätes.
  • 2 ein anderes Beispiel der Schaltungen eines Informationshandhabungsgerätes.
  • 3 ein beispielhaftes Verfahren zum Verlängern eines Spracherkennungszeitraums.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Es versteht sich ohne Weiteres, dass die Komponenten der Ausführungsformen, wie sie hierin allgemein beschrieben und in den Figuren abgebildet sind, zusätzlich zu den beschriebenen Ausführungsbeispielen in vielen verschiedenen Konfigurationen angeordnet und ausgelegt sein können. Somit ist die nachstehende ausführlichere Beschreibung der Ausführungsbeispiele, wie in den Figuren dargestellt, nicht dazu gedacht, den Umfang der beanspruchten Ausführungsformen einzuschränken, sondern ist nur für Ausführungsbeispiele repräsentativ.
  • Eine Bezugnahme in der gesamten vorliegenden Beschreibung auf „eine Ausführungsform” (oder ähnliche Ausdrücke) bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder ein bestimmtes Kennzeichen, das bzw. die in Verbindung mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform enthalten ist. Somit bezieht sich das Vorkommen der Redewendungen „bei einer Ausführungsform” und dergleichen an verschiedenen Stellen in der gesamten vorliegenden Beschreibung nicht unbedingt immer auf die gleiche Ausführungsform.
  • Ferner können die beschriebenen Merkmale, Strukturen oder Kennzeichen in einer beliebigen geeigneten Art in einer oder mehreren Ausführungsformen kombiniert werden. In der nachstehenden Beschreibung werden zahlreiche spezifische Einzelheiten bereitgestellt, um ein gründliches Verständnis der Ausführungsformen bereitzustellen. Der Fachmann auf diesem Gebiet wird jedoch erkennen, dass die diversen Ausführungsformen ohne eine oder mehrere der spezifischen Einzelheiten oder mit anderen Verfahren, Bauteilen, Materialien und so weiter in die Praxis umgesetzt werden können. In anderen Fällen werden hinlänglich bekannte Strukturen, Materialien oder Vorgänge der Übersichtlichkeit halber nicht gezeigt oder ausführlich beschrieben.
  • Um Audiodaten (z.B. Sprachbefehle) als Eingabe zu empfangen, müssen Audioaufnahmegeräte aktiviert werden und aktiv auf die Audioeingabe horchen. Auf Grund diverser Faktoren (z.B. Batterielebensdauer, Datenschutzüberlegungen usw.) verarbeiten die meisten Audioaufnahmegeräte das Audiomaterial nicht durchgehend. Somit muss ein Benutzer den Sprachbefehlsmodus über ein gewisses Benutzereingabemittel aktivieren. Ein Verfahren besteht darin, eine Taste an dem Gerät (z.B. eine Software-Schaltfläche oder eine materielle Taste) zu betätigen, wodurch der Benutzer aufgefordert wird, anschließend den Sprachbefehl einzugeben. Alternativ kann ein Auslösewort oder ein Auslöseausdruck verwendet werden, um eine persönliche Assistentenanwendung zu aktivieren, zum Beispiel „Ok Google”, „Hallo Siri”, „Hallo Cortana”, „Alexa” usw.). SIRI ist ein eingetragenes Warenzeichen von Apple Inc. in den Vereinigten Staaten und anderen Ländern. CORTANA ist ein eingetragenes Warenzeichen von Microsoft Corporation in den Vereinigten Staaten und anderen Ländern.
  • Typischerweise ist für jeden einzelnen Befehl ein Weckwort oder Auslöseausdruck notwendig. Einige Sprachbefehle führen zu einer Bestätigungs- oder Klarstellungsfrage seitens des digitalen Assistenten, doch gilt dies nur für Befehle, die unvollständig sind oder weitere Informationen benötigen. Dies führt dadurch zu einem technischen Problem für einen Benutzer, dass er ständig das Weckwort oder den Weckausdruck wiederholen muss, selbst wenn er mehrere Befehle der Reihe nach oder in kurzer Zeit erteilt. Diese ständige Wiederholung eines einzigen Ausdrucks schafft eine ungünstige und unangenehme Interaktion zwischen dem Benutzer und dem Gerät. Somit wird eine Lösung benötigt, die in den meisten Situationen viel praktischer ist und die den natürlichen Ablauf eines menschlichen Gesprächs nicht behindert.
  • Somit verlängert eine Ausführungsform eine anfängliche Weckwortsitzung, so dass diese auf mögliche nachfolgende Audiodaten (z.B. Sprachbefehle) horcht. Diese nachfolgenden Befehle können für Befehle gefiltert werden, die ähnlich wie der anfängliche Befehl sind. Beispielsweise könnten die Befehle dadurch ähnlich sein, dass sie die gleiche Anwendung, ähnliche Hardware usw. betreffen. Bei einer Ausführungsform kann bzw. können der oder die sekundären Befehle basierend auf einem vorbestimmten Zeitraum (z.B. 30 Sekunden, 1 Minute usw.) angenommen werden, und/oder bis eine gesamte vorbestimmte Anzahl von Befehlen während eines festgelegten Zeitraums erteilt/empfangen wurde, nachdem der letzte Befehl angenommen oder die Aktion, die mit dem Befehl verknüpft ist, ausgeführt wurde. Zudem kann eine Ausführungsform zusätzliche Befehle annehmen, solange der vorherige Arbeitsschritt oder Befehl aktiv ist. Falls beispielsweise eine Ausführungsform einem Benutzer die aktuellen Nachrichten vorliest, kann der Benutzer nach weiteren Einzelheiten über einen spezifischen Nachrichtenartikel, der vorgelesen wird, fragen (z.B. indem er sagt „darüber möchte ich mehr erfahren”).
  • Eine Ausführungsform kann eine Audioeingabe (z.B. eine Benutzerspracheingabe) empfangen und die Eingabe parsen, um ein Aktivierungsstichwort oder einen Auslöseausdruck (z.B. Ok Google) und einen Befehl zu identifizieren. Eine Ausführungsform kann dann basierend auf dem empfangenen Befehl eine Maßnahme treffen (z.B. das Ansagen des Wetterberichts basierend auf einer Anfrage). Eine Ausführungsform kann dann eine zusätzliche Audioeingabe empfangen (z.B. einen anderen Benutzersprachbefehl), die kein Aktivierungsstichwort enthält. Die zusätzliche Audioeingabe wird analysiert, um zu bestimmen, ob eine Beziehung zwischen der zusätzlichen Audioeingabe und der zuvor eingegebenen Audioeingabe besteht. Beispiele von möglichen Beziehungen werden hierin ausführlich besprochen. Sobald eine Beziehung bestimmt wurde, kann dann eine Ausführungsform anschließend die in der zusätzlichen Eingabe angefragte Aktion ausführen.
  • Die abgebildeten Ausführungsbeispiele werden am besten mit Bezug auf die Figuren verständlich. Die nachstehende Beschreibung ist dazu gedacht, rein beispielhaft zu sein, und bildet nur bestimmte Ausführungsbeispiele ab.
  • Obwohl diverse andere Schaltkreise, Schaltungen oder Bauteile in Informationshandhabungsgeräten verwendet werden können, umfasst mit Bezug auf die Schaltungen 100 eines Smartphones und/oder Tablets ein in 1 abgebildetes Beispiel ein System-on-Chip Design, welches beispielsweise bei Tablets oder anderen mobilen Computerplattformen vorzufinden ist. Die Software und der oder die Prozessoren sind in einem einzigen Chip 110 kombiniert. Die Prozessoren umfassen interne arithmetische Einheiten, Register, Cachespeicher, Busse, E/A-Anschlüsse usw., wie es in der Technik wohlbekannt ist. Interne Busse und dergleichen sind von verschiedenen Herstellern abhängig, doch im Wesentlichen können alle Peripheriegeräte (120) an einem einzigen Chip 110 angebracht werden. Die Schaltungen 100 kombinieren den Prozessor, die Speichersteuerung und den E/A-Steuerknoten alle zusammen in einen einzigen Chip 110. Derartige Systeme 100 verwenden typischerweise auch kein SATA, PCI oder LPC. Übliche Schnittstellen umfassen beispielsweise SDIO und I2C.
  • Es gibt Stromverwaltungschips 130, z.B. eine Batterieverwaltungseinheit, BMU, die den Strom verwalten, wie er beispielsweise über eine aufladbare Batterie 140 zugeführt wird, die man durch Anschließen an eine Stromquelle (nicht gezeigt) aufladen kann. Bei mindestens einer Bauform wird ein einziger Chip, wie etwa 110, verwendet, um eine BIOS-artige Funktionalität und einen DRAM-Speicher bereitzustellen.
  • Das System 100 umfasst typischerweise einen oder mehrere von einem WWAN-Transceiver 150 und einem WLAN-Transceiver 160 zum Anschließen an diverse Netzwerke, wie etwa Telekommunikationsnetzwerke und drahtlose Internet-Geräte, z.B. Zugriffspunkte. Zudem sind für gewöhnlich Geräte 120, z.B. ein Audioeingabegerät, wie etwa ein Mikrofon, das analoges Audiomaterial in ein digitales Eingangssignal verarbeitet, enthalten. Das System 100 umfasst häufig einen Berührungsbildschirm 170 zum Eingeben und Anzeigen/Wiedergeben von Daten. Das System 100 umfasst typischerweise auch diverse Speichergeräte, beispielsweise einen Flash-Speicher 180 und einen SDRAM 190.
  • 2 bildet ein Blockdiagramm eines anderen Beispiels der Schaltkreise, Schaltungen oder Bauteile eines Informationshandhabungsgerätes ab. Das in 2 abgebildete Beispiel kann Computersystemen, wie etwa der THINKPAD-Serie von PCs, die von Lenovo (US) Inc. aus Morrisville, NC, verkauft wird, oder anderen Geräten entsprechen. Wie es aus der vorliegenden Beschreibung hervorgeht, können die Ausführungsformen andere Merkmale oder nur einige der Merkmale des in 2 abgebildeten Beispiels umfassen.
  • Das Beispiel aus 2 umfasst einen so genannten Chipsatz 210 (eine Gruppe integrierter Schaltungen bzw. Chips, die zusammenarbeiten, Chipsätze) mit einer Architektur, die je nach Hersteller (beispielsweise INTEL, AMD, ARM usw.) unterschiedlich sein kann. INTEL ist ein eingetragenes Warenzeichen von Intel Corporation in den Vereinigten Staaten und anderen Ländern. AMD ist ein eingetragenes Warenzeichen von Advanced Micro Devices, Inc. in den Vereinigten Staaten und anderen Ländern. ARM ist ein nicht eingetragenes Warenzeichen von ARM Holdings plc in den Vereinigten Staaten und anderen Ländern. Die Architektur des Chipsatzes 210 umfasst eine Kern- und Speichersteuerungsgruppe 220 und einen E/A-Steuerknoten 250, der Informationen (beispielsweise Daten, Signale, Befehle usw.) über eine Direct Management Interface (DMI) 242 oder einen Link-Controller 244 austauscht. In 2 ist die DMI 242 eine Chip-zu-Chip-Schnittstelle (gelegentlich auch als Verknüpfung zwischen einer „Northbridge” und einer „Southbridge” bezeichnet). Die Kern- und Speichersteuerungsgruppe 220 umfasst einen oder mehrere Prozessoren 222 (beispielsweise Einzel- oder Mehrkern) und einen Speicher-Steuerknoten 226, die Informationen über einen Front Side Bus (FSB) 224 austauschen; es sei zu beachten, dass die Bauteile der Gruppe 220 in einen Chip integriert sein können, der die herkömmliche „Northbridge-” Architektur ersetzt. Ein oder mehrere Prozessoren 222 umfasst bzw. umfassen interne arithmetische Einheiten, Register, Cachespeicher, Busse, E/A-Anschlüsse usw., wie es in der Technik wohlbekannt ist.
  • In 2 bildet der Speicher-Steuerknoten 226 eine Schnittstelle mit dem Speicher 240 (um beispielsweise eine Unterstützung für eine Art von RAM bereitzustellen, die man als „Systemspeicher” oder „Speicher” bezeichnen kann). Der Speicher-Steuerknoten 226 umfasst ferner eine Niederspannungs-Differenzialsignalisierungs-(LVDS)Schnittstelle 232 für ein Anzeigegerät 292 (z.B. einen CRT, einen Flachbildschirm, einen Berührungsbildschirm usw.). Ein Block 238 umfasst gewisse Technologien, die über die LVDS-Schnittstelle 232 unterstützt werden können (z.B. serielles digitales Video, HDMI/DVI, DisplayPort). Der Speicher-Steuerknoten 226 umfasst auch eine PCI-Express-Schnittstelle (PCI-E) 234, die diskrete Grafik 236 unterstützen kann.
  • In 2 umfasst der E/A-Steuerknoten 250 eine SATA-Schnittstelle 251 (beispielsweise für HDDs, SDDs, 280 usw.), eine PCI-E-Schnittstelle 252 (beispielsweise für drahtlose Verbindungen 282), eine USB-Schnittstelle 253 (beispielsweise für Geräte 284, wie etwa einen Digitalisierer, eine Tastatur, Mäuse, Kameras, Telefone, Mikrofone, Speichermittel, andere angeschlossene Geräte usw.), eine Netzwerkschnittstelle 254 (beispielsweise LAN), eine GPIO-Schnittstelle 255, eine LPC-Schnittstelle 270 (für ASICs 271, einen TPM 272, einen Super-E/A 273, einen Firmware-Knoten 274, eine BIOS-Unterstützung 275 sowie diverse Arten von Speicher 276, wie etwa ROM 277, Flash 278 und NVRAM 279), eine Stromverwaltungsschnittstelle 261, eine Taktgeberschnittstelle 262, eine Audioschnittstelle 263 (beispielsweise für die Lautsprecher 294), eine TCO-Schnittstelle 264, eine Systemverwaltungsbus-Schnittstelle 265 und SPI-Flash 266, die ein BIOS 268 und Boot-Code 290 umfassen können. Der E/A-Steuerknoten 250 kann eine Gigabit-Ethernet-Unterstützung umfassen.
  • Beim Einschalten kann das System konfiguriert sein, um den Boot-Code 290 für das BIOS 268 auszuführen, der in dem SPI-Flash 266 gespeichert ist, und verarbeitet anschließend Daten unter der Kontrolle von einem oder mehreren Betriebssystemen und von Anwendungs-Software (wie beispielsweise im Systemspeicher 240 gespeichert). Ein Betriebssystem kann an einer beliebigen von diversen Stellen gespeichert sein und kann beispielsweise gemäß den Anweisungen des BIOS 268 zugänglich sein. Wie hier beschrieben, kann ein Gerät eine geringere oder größere Anzahl von Merkmalen umfassen als sie in dem System aus 2 gezeigt werden.
  • Schaltungen von Informationshandhabungsgeräten, wie beispielsweise in 1 oder 2 angesprochen, können bei Geräten, wie etwa Tablets, Smartphones, PC-Geräten und/oder elektronische Geräten allgemein, denen Benutzer Sprachbefehle erteilen können, um spezifische Aktionen auszuführen, verwendet werden. Beispielsweise können die in 1 angesprochenen Schaltungen in einer Tablet- oder Smartphone-Ausführungsform umgesetzt werden, wohingegen die Schaltungen, die in 2 angesprochen werden, in einer PC-Ausführungsform umgesetzt werden können.
  • Nun kann mit Bezug auf 3 eine Ausführungsform bei 310 eine Audioeingabe empfangen. Die Audioeingabe kann unterschiedlicher Art sein, beispielsweise menschliche Sprache in Form von Befehlseingaben. Zudem könnte die Audioeingabe von einem Mediengerät (z.B. Radio, Fernsehen, Computer usw.) erzeugt werden. Wenn das Audiomaterial empfangen wird, kann eine Ausführungsform das Audiomaterial parsen, um bei 310 zu bestimmen, ob es ein Aktivierungsstichwort oder einen Auslöseausdruck enthält. Ein Aktivierungsstichwort oder ein Auslöseausdruck ermöglicht es einem Gerät „aufzuwachen” (z.B. wird es einem Gerät ermöglicht, Audiomaterial aufzunehmen und zu analysieren, um einen verknüpften Befehl auszuführen). Derzeit ist diese Aufwachperiode kurz und nur dazu gedacht, dass ein einziger Befehl eingegeben werden kann. Falls somit ein Benutzer mehrere Befehle eingeben möchte, muss er einen spezifischen Ausdruck oder ein Wort wiederholen, damit das Gerät aufwacht und in einen aktiven Sprachverarbeitungsmodus eintritt, um jede nachfolgende Maßnahme basierend auf einem erteilten Befehl zu treffen.
  • Eine Ausführungsform kann bei 310 einen oder mehrere Befehle innerhalb der aufgenommenen Audiodaten identifizieren. Somit kann eine Ausführungsform eine Audioeingabe empfangen, die ein Aktivierungsstichwort sowie einen Befehl (z.B. „Wie wird das Wetter morgen?”) enthält. Sobald eine Ausführungsform bestimmt hat, dass das aufgenommene Audiomaterial ein Aktivierungsstichwort umfasst, kann sie bei 320 basierend auf dem verknüpften empfangenen Befehl eine Aktion ausführen. Beispielsweise kann ein Benutzer eine Ausführungsform bitten, eine E-Mail vorzulesen/anzuzeigen, die aktuellen Nachrichten vorzulesen/anzuzeigen, die Termine des Kalenders eines Benutzers vorzulesen/anzuzeigen, usw. Es werden hierin diverse beispielhafte Aktionen offenbart, es versteht sich jedoch, dass ein beliebiger denkbarer Befehl, der von einem elektronischen Gerät ausgeführt werden kann, als Teil der Audioeingabe empfangen und bei 320 als Befehl verarbeitet werden kann.
  • Sobald bei 320 eine Aktion ausgeführt wurde, kann eine Ausführungsform bei 330 eine zusätzliche Audioeingabe empfangen. Das zusätzliche Audiomaterial kann ähnlich wie die erste empfangene Audioeingabe mindestens einen Befehl enthalten. Eine Ausführungsform bestimmt dann bei 340, ob zwischen der zusätzlichen Audioeingabe und dem vorherigen bestimmten Befehl eine Beziehung besteht. Diese Beziehung kann diverse Formen annehmen, wie etwa diejenigen, die hierin besprochen werden.
  • Beispielsweise kann eine Ausführungsform bei 340 basierend auf einer vorbestimmten Zeitdauer, die zwischen der anfänglichen Audioeingabe und der sekundären Audioeingabe verstreicht, bestimmen, dass eine Beziehung besteht. Zusätzlich oder alternativ kann die vorbestimmte Zeitdauer zwischen dem Zeitpunkt, an dem die Aktion bei 320 ausgeführt wird, und dem Zeitpunkt, an dem die zweite Audioeingabe (d.h. der zweite Befehl) bei 330 empfangen wird, liegen. Beispielsweise kann eine Ausführungsform eine erste Audioeingabe empfangen, die ein Aktivierungsstichwort und einen ersten Befehl umfasst. Falls eine zweite Audioeingabe, die einen zweiten Befehl umfasst, innerhalb eines vorbestimmten Zeitraums (z.B. 10 Sekunden, 30 Sekunden, 1 Minute usw.) empfangen wird, kann eine Ausführungsform dann basierend auf dem zweiten empfangenen Befehl bei 360 eine Aktion ausführen, selbst wenn kein Weckstichwort für den zweiten Befehl bereitgestellt wurde. Falls jedoch die zusätzliche Eingabe bei 330 außerhalb des vorbestimmten Zeitraums empfangen wird, kann es sein, dass eine Ausführungsform bei 350 keine Maßnahmen trifft.
  • Eine Ausführungsform kann bei 340 bestimmen, dass zwischen dem Befehl und der zusätzlichen Eingabe eine Beziehung besteht, indem sie eine Korrelation oder Verknüpfung zwischen der anfänglichen oder vorhergehenden Aktion und einer anderen Aktion (d.h. der sekundären Aktion basierend auf dem sekundären Befehl in der zusätzlichen Audioeingabe) identifiziert. Falls beispielsweise ein Benutzer eine Ausführungsform bitte, das Licht anzuschalten, kann er anschließend darum bitten, dass das Licht gedämpft oder aufgehellt wird. Der Befehl des Dämpfens des Lichts würde von einer Ausführungsform als eng mit dem vorhergehenden Befehl (in diesem Fall thematisch oder kontextuell) korreliert oder verknüpft erkannt werden. Somit würde der nachfolgende Befehl kein zusätzliches Aktivierungsstichwort erfordern. Das Erkennen dieser Korrelation oder Verknüpfung steigert die Benutzerfreundlichkeit von Sprachbefehlen erheblich.
  • Bei einer Ausführungsform kann eine Korrelation oder Verknüpfung mit einem Befehl hergestellt werden, der während der Verarbeitung einer vorhergehenden Aktion empfangen wird. Beispielsweise kann ein Benutzer nach allgemeinen Wetterinformationen fragen (indem er beispielsweise sagt „Cortana, wie ist das Wetter”), und dann, während die angefragten Informationen an den Benutzer abgegeben werden, kann eine Ausführungsform eine weitere Audioeingabe, die von einem Benutzer bereitgestellt wird, empfangen und parsen. Falls der Benutzer somit beispielsweise „Stopp” sagt, während die Informationen abgegeben werden, kann eine Ausführungsform aufhören, die Wetterinformationen bereitzustellen. Optional kann eine Ausführungsform die Aufweckperiode beenden, bis anschließend ein zusätzliches Aktivierungsstichwort empfangen wird. Alternativ kann eine Ausführungsform das Ausgeben der Wetterinformationen unterbrechen und es dem Benutzer ermöglichen, zusätzliche Sprachdaten einzugeben, ohne das Aktivierungsstichwort (z.B. ein Weckwort oder einen Weckausdruck) zu benötigen.
  • Zudem kann die bestimmte Beziehung bei 340 auf einem universellen Ausdruck oder auf einem arbeitsschrittspezifischen Ausdruck basieren. Beispielsweise kann ein universeller Ausdruck ein Begriff, wie etwa „Stopp”, sein, der mit anderen Befehlen verwendet werden kann. Falls der ursprüngliche Befehl eines Benutzers somit eine Aktion bedingte, die in einem Zeitraum stattfinden kann (z.B. Melden der Nachrichten, Ansagen des Wetterberichts, Vorlesen einer E-Mail usw.), ist der Begriff „Stopp” universell mit dieser laufenden Aktion korreliert oder verknüpft. Alternativ besteht für den Fall eines arbeitsschrittspezifischen Ausdrucks, beispielsweise das Anfragen des Dämpfens des Lichts sofort nach dem Anschalten des Lichts, eine spezifische Korrelation oder Verknüpfung zwischen dem ersten und dem zweiten Befehl. Somit würde eine Ausführungsform nur Maßnahmen mit Bezug auf einen Befehl des „Dämpfens” treffen, falls der vorhergehende Befehl eine starke thematische Korrelation aufwies, wie etwa das Anschalten des Lichts (z.B. basierend auf Schlüsselwörtern und einer Analyse einer thematischen Hierarchie).
  • Bei einer Ausführungsform kann die bei 340 identifizierte Beziehung auf einem geografischen Standort basieren. Somit kann eine Ausführungsform wissen, dass sich der Benutzer oder das Gerät innerhalb eines geografischen Standorts (z.B. dem Haus des Benutzers) befindet, und kann den Aufweckzeitraum basierend auf vorweggenommenen Befehlen verlängern. Falls eine Ausführungsform beispielsweise erkennt, dass sie sich im Haus des Benutzers befindet, und der Benutzer einen Befehl erteilt, das Licht anzuschalten, gefolgt von einem Befehl, die Temperatur einzustellen, kann eine Ausführungsform basierend auf dem geografischen Standort bestimmen, dass zwischen den beiden Anfragen eine starke Korrelation besteht, weil es für einen Hausbesitzer typisch ist, bestimmte Maßnahmen zu treffen, wenn er nach Hause kommt. Falls zwischen den beiden Befehlen keine geografische Verknüpfung bestünde, würde alternativ nicht bestimmt, dass dazwischen eine Beziehung oder Korrelation besteht.
  • Bei einer Ausführungsform kann die bei 340 bestimmte Beziehung auf der Uhrzeit basieren. Falls ähnlich wie bei dem obigen Beispiel eine Ausführungsform bestimmt, dass es 18 Uhr 30 ist, kann eine Ausführungsform z.B. basierend auf einer Standardregel und/oder über einen Verlauf der Benutzereingaben bestimmen, dass es für einen Benutzer typisch ist, an jedem Wochentag um 18 Uhr 30 nach Hause zu kommen und einen oder mehrere Befehle zu erteilen. Somit kann von einer Reihe von Befehlen, wie etwa das Licht anzuschalten, die Temperatur einzustellen und den Fernseher anzuschalten, bestimmt werden, dass sie auf Grund der Uhrzeit (z.B. einer Uhrzeit, zu der ein Benutzer nach Hause kommt und anschließend diverse Faktoren einstellt, die mit dem häuslichen Komfort zusammenhängen) eine starke Beziehung aufweist. Somit kann eine Ausführungsform auf ein oder mehrere dieser Spracheingaben hin handeln, wenn sie ohne spezifischen Aktivierungsauslöser, z.B. ein Weckwort oder einen Weckausdruck, erkannt werden.
  • Die bei 340 bestimmte Beziehung kann auf einer oder mehreren derzeit aktiven Anwendungen basieren. Falls ein Benutzer beispielsweise eine Ausführungsform bittet, eine spezifische Mediendatei abzuspielen (z.B. Musik, Video usw.), kann sie eine nachfolgende Anfrage bezüglich der Medienabspielanwendung vorwegnehmen, wie etwa: lauter/leiser, Pause, Titel/Kapitel überspringen usw. Als weiteres Beispiel kann eine Ausführungsform Musik basierend auf einem Sprachbefehl (z.B. „Cortana, spiel Tom Petty”) abspielen und es dann dem Benutzer erlauben, einen zusätzlichen diesbezüglichen Befehl (z.B. „lauter”, „überspringen”, „das gefällt mir”, „Pause”, „Stopp” usw.) ohne Weckwort (d.h. Aktivierungsstichwort) zu erteilen. Somit würde ein beliebiger Befehl bezüglich der Wiedergabe von Musik oder Medien kein Weckwort benötigen. Eine weitere Ausführungsform kann während eines vordefinierten Zeitraums auf musikbezogene Befehle horchen, wie hierin besprochen.
  • Zusätzlich oder alternativ kann die Beziehung auf einer oder mehreren kürzlich aktiven Anwendungen basieren. Falls ein Benutzer beispielsweise einen Befehl erteilt, damit die Nachrichten vorgelesen werden, kurz nachdem er seine E-Mail nachgesehen hat, kann es eine Ausführungsform einem Benutzer erlauben, einen nachfolgenden Befehl bezüglich eines E-Mail-Kontos einzugeben (z.B. Verfassen, Antworten, Löschen usw.), obwohl der vorhergehende Befehl eine Anfrage für Nachrichten war.
  • Es kann eine persönliche Spracherkennung verwendet werden. Basierend auf der Erkennung einer Person kann eine Ausführungsform beispielsweise nur Befehle von der Person annehmen, die den anfänglichen Befehl bei 310 erteilt hat. Dadurch kann eine Ausführungsform die verfügbare Zeit zum Eingeben von Befehlen verlängern und dabei auch sicherstellen, dass die Befehle von einem einzigen Benutzer erteilt werden. Daher kann eine Ausführungsform durch Filtern nach Stimme eine Person identifizieren, die einen ersten Befehl erteilt hat, und nachfolgende Befehle von diesem Benutzer z.B. während eines vorbestimmten Zeitraums annehmen. Die bei 340 bestimmte Beziehung basiert somit auf einem Spracherkennungsalgorithmus, der ausgeführt wird, bevor die sekundäre Aktion bei 360 erfolgt.
  • Eine Ausführungsform kann bei 340 auch eine Beziehung basierend auf externen Faktoren bestimmen. Beispielsweise kann eine Ausführungsform einen Befehl nur annehmen, falls ein Benutzer das Gerät bewusst ansieht. Falls ein Benutzer somit das Gerät ansieht, wenn dieses bei 310 das erste Audiomaterial empfängt, kann eine Beziehung mit dem zweiten Befehl hergestellt werden, falls der Benutzer das Gerät (z.B. ein mobiles Gerät, einen Computer, einen intelligenten Assistenten usw.) weiterhin ansieht oder noch einmal ansieht. Falls ein Benutzer alternativ vor der Eingabe des zweiten Befehls (d.h. dem Empfangen der zusätzlichen Audioeingabe bei 330) wegsieht, kann es sein, dass eine Ausführungsform bei 350 keine Maßnahmen trifft.
  • Zusätzlich zu den hier besprochenen universellen und spezifischen Korrelationen kann eine Ausführungsform Beziehungen zwischen Befehlen basierend auf früheren Benutzerdaten identifizieren. Beispielsweise kann eine Ausführungsform eventuelle frühere Befehle, die von einem Benutzer eingegeben wurden, speichern oder Zugang zu diesen haben. Falls somit ein Benutzer regelmäßig eine Reihe von unkorrelierten Befehlen erteilt, kann eine Ausführungsform im Verlauf der Zeit daraus lernen und basierend auf den gespeicherten früheren Daten zwischen den Befehlen eine Beziehung erstellen. Falls ein Benutzer beispielsweise die Lautstärke des Fernsehers einstellt (z.B. leiser stellt), kurz nachdem er den Lichtpegel in einem Raum eingestellt hat (z.B. das Licht gedämpft hat), kann eine Ausführungsform eine Beziehung zwischen den beiden Befehlen herstellen, obwohl sie generell nicht verwandt sind oder zuvor, z.B. standardmäßig, nicht verwandt waren.
  • Eine Liste von zuvor erteilten Befehlen kann gepflegt und verwendet werden, um Anfragen zu identifizieren, bei denen ein Benutzer früher nachfolgende Befehle erteilt hat. Somit kann eine Ausführungsform auf Befehle horchen, auf die typischerweise andere Befehle folgen (z.B. durch die allgemeine Bevölkerung oder einen bestimmten Benutzer). Beispielsweise kann ein Benutzer typischerweise die Wiedergabelautstärke eines Gerätes kurz oder sofort nach dem Anfragen von abzuspielenden Medien (z.B. Musik, Video usw.), beispielsweise basierend auf dem Medientyp (z.B. Hardrock, klassische Musik usw.), einer aktuellen Lautstärkeneinstellung der Geräteanwendung usw., einstellen. Somit kann eine Ausführungsform den anstehenden Lautstärkenregelbefehl (z.B. lauter oder leiser) basierend auf dem Medientyp usw. vorwegnehmen und den Zeitraum für die Eingabe von Anweisungen verlängern. Zusätzlich oder alternativ kann eine Ausführungsform bestimmen (z.B. im Verlauf der Zeit basierend auf einer früheren Benutzereingabe lernen), dass eine standardmäßige Beziehung unnötig ist. Falls ein Benutzer beispielsweise seine Musiklautstärke nie einstellt, dann kann das Gerät damit aufhören, auf einen nachfolgenden Befehl nach dem Abspielen der Musik zu horchen. Eine Ausführungsform kann auch zulassen, dass unähnliche Befehle innerhalb eines gewissen Zeitraums empfangen werden. Unähnliche Befehle könnten es einem Benutzer erlauben, eine Kette von unzusammenhängenden Befehlen zu erteilen. Diese unzusammenhängenden Befehle können erlernt, aktiviert oder gefiltert werden.
  • Wie durch die Ausführungsbeispiele und Figuren erläutert, stellt eine Ausführungsform entsprechend ein Verfahren zum Empfangen einer Audioeingabe an einem Audioaufnahmegerät bereit. Diese anfängliche Audioeingabe enthält typischerweise ein Aktivierungsstichwort und mindestens einen Befehl. Eine Ausführungsform führt dann basierend auf dem empfangenen Befehl eine Aktion aus. An einem bestimmten späteren Punkt wird eine zusätzliche Audioeingabe von einer Ausführungsform empfangen, und die Ausführungsform bestimmt, ob ein neues Aktivierungsstichwort notwendig ist. Um diese Bestimmung vorzunehmen, versucht eine Ausführungsform zu identifizieren, ob zwischen der anfänglichen Audioeingabe und der sekundären Eingabe eine Beziehung besteht. Beispiele von möglichen Beziehungen werden hierin ausführlich besprochen. Dann führt basierend auf dieser Bestimmung eine Ausführungsform entweder eine Aktion basierend auf dem sekundären Befehl aus oder trifft keine Maßnahmen, falls keine Beziehung existiert.
  • Die hier beschriebenen diversen Ausführungsformen stellen somit eine technische Verbesserung für die Interaktion mit elektronischen Geräten dar, indem sie die Art und Weise ändern, in der Audioeingaben verarbeitet werden. Diese Verbesserung ermöglicht es dem Gerät, im Verlauf der Zeit basierend auf vorhergehenden Benutzeraktionen zu lernen. Somit speichert eine Ausführungsform ein Datenarchiv von zuvor eingegebenen Benutzerbefehlen und stellt basierend auf den früheren Daten Korrelationen zwischen spezifischen Befehlen her. Dieses Herstellen von Korrelationen ermöglicht es einem Benutzer, sich natürlicher auszudrücken und Aufgaben effizient und komfortabel auszuführen.
  • Wie es der Fachmann verstehen wird, können diverse Aspekte als System, Verfahren oder Geräteprogrammprodukt ausgebildet sein. Entsprechend können Aspekte die Form einer Ausführungsform ganz aus Hardware oder einer Ausführungsform mit Software, die hierin alle allgemein als „Schaltung”, „Modul” oder „System” bezeichnet werden, annehmen. Ferner können Aspekte die Form eines Geräteprogrammprodukts annehmen, das als ein oder mehrere gerätelesbare Medien ausgebildet ist, in denen gerätelesbarer Programmcode verkörpert ist.
  • Es sei zu beachten, dass die hier beschriebenen diversen Funktionen unter Verwendung von Anweisungen umgesetzt werden können, die auf einem gerätelesbaren Speichermedium, wie etwa einem Nicht-Signalspeichergerät, gespeichert sind und von einem Prozessor ausgeführt werden. Ein Speichergerät kann beispielsweise ein elektronisches, magnetisches, elektromagnetisches oder Halbleiter-System, -Vorrichtung oder -Gerät oder eine geeignete Kombination derselben sein. Genauere Beispiele eines Speichermediums würden Folgendes umfassen: eine tragbare Computerdiskette, eine Festplatte, einen Arbeitsspeicher (RAM), einen Festspeicher (ROM), einen löschbaren programmierbaren Festwertspeicher (EPROM oder Flash-Speicher), eine Lichtleitfaser, eine tragbaren Compact Disk Festwertspeicher (CD-ROM), ein magnetisches Speichergerät oder eine beliebige geeignete Kombination derselben. In Zusammenhang mit der vorliegenden Druckschrift ist ein Speichergerät kein Signal, und umfasst der Begriff „nicht vorübergehend” alle Medien außer Signalmedien.
  • Programmcode, der auf einem Speichermedium verkörpert ist, kann unter Verwendung eines beliebigen geeigneten Mediums, einschließlich ohne Einschränkung drahtlos, drahtgebunden, über Glasfaserkabel, HF usw. oder einer beliebigen geeigneten Kombination derselben, übertragen werden.
  • Programmcode zum Ausführen von Operationen kann in einer beliebigen Kombination von einer oder mehreren Programmiersprachen verfasst sein. Der Programmcode kann vollständig auf einem einzigen Gerät, teilweise auf einem einzigen Gerät, als selbstständiges Software-Paket, teilweise auf einem einzigen Gerät und teilweise auf einem anderen Gerät oder vollständig auf dem anderen Gerät ausgeführt werden. In manchen Fällen können die Geräte über eine beliebige Art von Verbindung oder Netzwerk verbunden werden, wozu ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN) gehören, oder kann die Verbindung über andere Geräte (beispielsweise über das Internet unter Verwendung eines Internet Service Providers), über drahtlose Verbindungen, z.B. Nahfeldkommunikation, oder über eine verkabelte Verbindung, wie etwa über eine USB-Verbindung, hergestellt werden.
  • Es werden hierin Ausführungsbeispiele mit Bezug auf die Figuren beschrieben, die beispielhafte Verfahren, Geräte und Programmprodukte gemäß diversen Ausführungsbeispielen abbilden. Es versteht sich, dass die Aktionen und die Funktionalität mindestens teilweise durch Programmanweisungen umgesetzt werden können. Diese Programmanweisungen können einem Prozessor eines Gerätes, eines speziellen Informationshandhabungsgerätes, oder eines anderen programmierbaren Datenverarbeitungsgerätes bereitgestellt werden, um eine Maschine zu ergeben, so dass die Anweisungen, die über einen Prozessor des Gerätes ausgeführt werden, die vorgegebenen Funktionen/Aktionen umsetzen.
  • Es sei zu beachten, dass obwohl spezifische Blöcke in den Figuren verwendet werden und eine bestimmte Reihenfolge von Blöcken abgebildet wurde, diese keine einschränkenden Beispiele sind. In bestimmten Zusammenhängen können zwei oder mehrere Blöcke kombiniert werden, kann ein Block in zwei oder mehrere Blöcke unterteilt werden, oder können bestimmte Blöcke je nach Bedarf umgeordnet oder umgestellt werden, da die ausdrücklich abgebildeten Beispiele nur zur Beschreibung verwendet werden und nicht als einschränkend auszulegen sind.
  • Wie sie hierin verwendet wird, kann die Einzahlform „ein, eine, ein” als die Mehrzahlform „ein oder mehrere” umfassend ausgelegt werden, soweit nicht eindeutig anderweitig angegeben.
  • Die vorliegende Offenbarung wurde zum Zweck der Erläuterung und Beschreibung vorgelegt, ist aber nicht dazu gedacht, erschöpfend oder einschränkend zu sein. Zahlreiche Modifikationen und Variationen werden für den Fachmann ersichtlich sein. Die Ausführungsbeispiele wurden gewählt und beschrieben, um die Grundlagen und die praktische Anwendung zu erklären, und um es anderen Fachleuten zu ermöglichen, die Offenbarung für diverse Ausführungsformen zu verstehen, wie sie für die bestimmte beabsichtigte Verwendung geeignet sind.
  • Obwohl somit hierin erläuternde Ausführungsbeispiele mit Bezug auf die beiliegenden Figuren beschrieben wurden, versteht es sich, dass diese Beschreibung nicht einschränkend ist und dass diverse andere Änderungen und Modifikationen hieran vom Fachmann vorgenommen werden können, ohne den Umfang oder Geist der Offenbarung zu verlassen.

Claims (20)

  1. Verfahren, umfassend folgende Schritte: Empfangen eines Aktivierungsstichworts an einem Audioaufnahmegerät; Empfangen mindestens eines Befehls an dem Audioaufnahmegerät nach dem Aktivierungsstichwort; Ausführen, unter Verwendung eines Prozessors, einer Aktion, basierend auf dem mindestens einen Befehl; Empfangen mindestens eines anderen Befehls an dem Audioaufnahmegerät; und Ausführen, unter Verwendung des Prozessors, einer anderen Aktion basierend auf dem anderen Befehl, ohne ein anderes Aktivierungsstichwort zu benötigen.
  2. Verfahren nach Anspruch 1, wobei das Ausführen der anderen Aktion erfordert, dass die zusätzliche Audioeingabe innerhalb einer vorbestimmten Zeit nach dem Ausführen der Aktion empfangen wird.
  3. Verfahren nach Anspruch 1, wobei das Ausführen einer anderen Aktion basierend auf dem mindestens einen anderen Befehl ferner folgenden Schritt umfasst: Identifizieren einer Beziehung zwischen dem mindestens einem anderen Befehl und dem mindestens einen Befehl.
  4. Verfahren nach Anspruch 3, wobei die Beziehung auf einer Verknüpfung zwischen der Aktion und der anderen Aktion basiert.
  5. Verfahren nach Anspruch 3, wobei die Beziehung auf einem Standort basiert.
  6. Verfahren nach Anspruch 3, wobei die Beziehung auf einer Uhrzeit basiert.
  7. Verfahren nach Anspruch 3, wobei die Beziehung auf mindestens einer derzeit aktiven Anwendung basiert.
  8. Verfahren nach Anspruch 3, wobei die Beziehung auf mindestens einer kürzlich aktiven Anwendung basiert.
  9. Verfahren nach Anspruch 1, wobei das Ausführen einer anderen Aktion basierend auf dem mindestens einen anderen Befehl ferner folgende Schritte umfasst: Zugreifen auf frühere Benutzersprachdaten in einem Speichergerät; Identifizieren unter Verwendung der früheren Audiodaten mindestens eines verknüpften Befehls basierend auf dem mindestens einen Befehl; und Ausführen der anderen Aktion, falls der mindestens eine andere Befehl mit dem mindestens einen verknüpften Befehl verknüpft ist.
  10. Verfahren nach Anspruch 1, wobei das Ausführen einer anderen Aktion basierend auf dem anderen Befehl ferner folgenden Schritt umfasst: Ausführen der anderen Aktion in Reaktion auf das Bestimmen, dass der andere Befehl mit mindestens einem universellen Befehl übereinstimmt.
  11. Informationshandhabungsgerät, umfassend: einen Prozessor; ein Audioaufnahmegerät; ein Speichergerät, das Anweisungen speichert, die durch den Prozessor ausführbar sind, zum: Empfangen eines Aktivierungsstichworts an dem Audioaufnahmegerät; Empfangen mindestens eines Befehls an dem Audioaufnahmegerät nach dem Aktivierungsstichwort; Ausführen, unter Verwendung des Prozessors, einer Aktion, basierend auf dem mindestens einen Befehl; Empfangen mindestens eines anderen Befehls an dem Audioaufnahmegerät; und Ausführen, unter Verwendung des Prozessors, einer anderen Aktion basierend auf dem anderen Befehl, ohne ein anderes Aktivierungsstichwort zu benötigen.
  12. Informationshandhabungsgerät nach Anspruch 1, wobei das Ausführen der anderen Aktion erfordert, dass die zusätzliche Audioeingabe innerhalb einer vorbestimmten Zeit nach dem Ausführen der Aktion empfangen wird.
  13. Informationshandhabungsgerät nach Anspruch 1, wobei das Ausführen einer anderen Aktion basierend auf dem mindestens einen anderen Befehl ferner folgenden Schritt umfasst: Identifizieren einer Beziehung zwischen dem mindestens einem anderen Befehl und dem mindestens einen Befehl.
  14. Informationshandhabungsgerät nach Anspruch 3, wobei die Beziehung auf einer Verknüpfung zwischen der Aktion und der anderen Aktion basiert.
  15. Informationshandhabungsgerät nach Anspruch 3, wobei die Beziehung auf einem Standort basiert.
  16. Informationshandhabungsgerät nach Anspruch 3, wobei die Beziehung auf einer Uhrzeit basiert.
  17. Informationshandhabungsgerät nach Anspruch 3, wobei die Beziehung auf einem Faktor basiert, der aus der Gruppe ausgewählt wird, die besteht aus: mindestens einer derzeit aktiven Anwendung und mindestens einer kürzlich aktiven Anwendung.
  18. Informationshandhabungsgerät nach Anspruch 1, wobei das Ausführen einer anderen Aktion basierend auf dem mindestens einen anderen Befehl ferner folgende Schritte umfasst: Zugreifen auf frühere Benutzersprachdaten in einem Speichergerät; Identifizieren unter Verwendung der früheren Audiodaten mindestens eines verknüpften Befehls basierend auf dem mindestens einen Befehl; und Ausführen der anderen Aktion, falls der mindestens eine andere Befehl mit dem mindestens einen verknüpften Befehl verknüpft ist.
  19. Informationshandhabungsgerät nach Anspruch 1, wobei das Ausführen einer anderen Aktion basierend auf dem anderen Befehl ferner folgenden Schritt umfasst: Ausführen der anderen Aktion als Reaktion auf das Bestimmen, dass der andere Befehl mit mindestens einem universellen Befehl übereinstimmt.
  20. Produkt, umfassend: eine Speichervorrichtung, auf der Code gespeichert ist, wobei der Code von einem Prozessor ausführbar ist und Folgendes umfasst: Code, der an einer Audioaufnahmevorrichtung ein Aktivierungsstichwort empfängt; Code, der an der Audioaufnahmevorrichtung mindestens einen Befehl nach dem Aktivierungsstichwort empfängt; Code, der unter Verwendung eines Prozessors eine Aktion basierend auf dem mindestens einen Befehl ausführt; Code, der an der Audioaufnahmevorrichtung mindestens einen anderen Befehl empfängt; und Code, der unter Verwendung des Prozessors eine andere Aktion basierend auf dem anderen Befehl ausführt, ohne ein anderes Aktivierungsstichwort zu benötigen.
DE102016122708.0A 2015-12-09 2016-11-24 Verlängern des Spracherkennungszeitraums Pending DE102016122708A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/963,995 2015-12-09
US14/963,995 US9940929B2 (en) 2015-12-09 2015-12-09 Extending the period of voice recognition

Publications (1)

Publication Number Publication Date
DE102016122708A1 true DE102016122708A1 (de) 2017-06-14

Family

ID=58773693

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016122708.0A Pending DE102016122708A1 (de) 2015-12-09 2016-11-24 Verlängern des Spracherkennungszeitraums

Country Status (3)

Country Link
US (1) US9940929B2 (de)
CN (1) CN107025906B (de)
DE (1) DE102016122708A1 (de)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10630751B2 (en) 2016-12-30 2020-04-21 Google Llc Sequence dependent data message consolidation in a voice activated computer network environment
US10956485B2 (en) * 2011-08-31 2021-03-23 Google Llc Retargeting in a search environment
US10614153B2 (en) 2013-09-30 2020-04-07 Google Llc Resource size-based content item selection
US10431209B2 (en) 2016-12-30 2019-10-01 Google Llc Feedback controller for data transmissions
US9703757B2 (en) 2013-09-30 2017-07-11 Google Inc. Automatically determining a size for a content item for a web page
KR101820291B1 (ko) * 2016-01-15 2018-01-19 현대자동차주식회사 차량용 음성 인식 제어 장치 및 그 방법
JP6659514B2 (ja) * 2016-10-12 2020-03-04 東芝映像ソリューション株式会社 電子機器及びその制御方法
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
KR20180118470A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
CN107564517A (zh) * 2017-07-05 2018-01-09 百度在线网络技术(北京)有限公司 语音唤醒方法、设备及系统、云端服务器与可读介质
US10964316B2 (en) * 2017-08-09 2021-03-30 Lenovo (Singapore) Pte. Ltd. Performing action on active media content
KR102098633B1 (ko) * 2017-08-22 2020-04-08 네이버 주식회사 인공지능 기기에서의 연속 대화 기능
KR102411766B1 (ko) * 2017-08-25 2022-06-22 삼성전자주식회사 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
US10847149B1 (en) * 2017-09-01 2020-11-24 Amazon Technologies, Inc. Speech-based attention span for voice user interface
US11016729B2 (en) 2017-11-08 2021-05-25 International Business Machines Corporation Sensor fusion service to enhance human computer interactions
US10685648B2 (en) 2017-11-08 2020-06-16 International Business Machines Corporation Sensor fusion model to enhance machine conversational awareness
US20200327890A1 (en) * 2017-11-28 2020-10-15 Sony Corporation Information processing device and information processing method
KR102079979B1 (ko) * 2017-12-28 2020-02-21 네이버 주식회사 인공지능 기기에서의 복수의 호출 용어를 이용한 서비스 제공 방법 및 그 시스템
KR102101373B1 (ko) * 2018-02-19 2020-04-16 주식회사 셀바스에이아이 기준 화자 모델을 이용한 음성 인식 장치 및 이를 이용한 음성 인식 방법
CN108538298B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 语音唤醒方法及装置
US10621983B2 (en) * 2018-04-20 2020-04-14 Spotify Ab Systems and methods for enhancing responsiveness to utterances having detectable emotion
CN108665900B (zh) 2018-04-23 2020-03-03 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
JP2019204025A (ja) * 2018-05-24 2019-11-28 レノボ・シンガポール・プライベート・リミテッド 電子機器、制御方法、及びプログラム
EP3756087A4 (de) * 2018-06-05 2021-04-21 Samsung Electronics Co., Ltd. Verfahren und systeme zum passiven aufwecken einer benutzerinteraktionsvorrichtung
US11100935B2 (en) 2018-06-05 2021-08-24 Samsung Electronics Co., Ltd. Voice assistant device and method thereof
KR102173841B1 (ko) * 2018-09-20 2020-11-05 현대오토에버 주식회사 복수의 인공지능 음성단말장치를 이용하여 구역별 전자장치를 제어하는 시스템 및 방법
CN109192210B (zh) * 2018-10-25 2023-09-22 腾讯科技(深圳)有限公司 一种语音识别的方法、唤醒词检测的方法及装置
US11676582B2 (en) * 2019-02-27 2023-06-13 Google Llc Detecting conversations with computing devices
EP3729422B1 (de) * 2019-02-27 2023-08-09 Google LLC Rechnervorrichtung mit erkennung von fortführenden dialoguen
WO2020226213A1 (ko) * 2019-05-09 2020-11-12 엘지전자 주식회사 음성 인식 기능을 제공하는 인공 지능 기기, 인공 지능 기기의 동작 방법
EP3970000A1 (de) 2019-07-19 2022-03-23 Google LLC Kondensierte, gesprochene äusserungen für die automatisierte hilfssteuerung einer komplexen grafischen anwendungsbenutzerschnittstelle
US20220319511A1 (en) * 2019-07-22 2022-10-06 Lg Electronics Inc. Display device and operation method for same
CN112530419B (zh) * 2019-09-19 2024-05-24 百度在线网络技术(北京)有限公司 语音识别控制方法、装置、电子设备和可读存储介质
CN112533041A (zh) * 2019-09-19 2021-03-19 百度在线网络技术(北京)有限公司 视频播放方法、装置、电子设备和可读存储介质
CN112669831B (zh) * 2019-09-29 2022-10-21 百度在线网络技术(北京)有限公司 语音识别控制方法、装置、电子设备和可读存储介质
CN112581945A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
CN112581969A (zh) * 2019-09-29 2021-03-30 百度在线网络技术(北京)有限公司 语音控制方法、装置、电子设备和可读存储介质
KR20210042520A (ko) * 2019-10-10 2021-04-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11418358B2 (en) 2019-11-04 2022-08-16 International Business Machines Corporation Smart device active monitoring
JP7482640B2 (ja) * 2020-02-05 2024-05-14 キヤノン株式会社 音声入力装置およびその制御方法ならびにプログラム
JP7405660B2 (ja) * 2020-03-19 2023-12-26 Lineヤフー株式会社 出力装置、出力方法及び出力プログラム
KR102241792B1 (ko) * 2020-04-02 2021-04-19 네이버 주식회사 인공지능 기기에서의 연속 대화 기능
US11557278B2 (en) * 2020-12-10 2023-01-17 Google Llc Speaker dependent follow up actions and warm words

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3422688B2 (ja) * 1998-07-02 2003-06-30 株式会社第一興商 選曲履歴を表示する通信カラオケ演奏端末
US6965863B1 (en) * 1998-11-12 2005-11-15 Microsoft Corporation Speech recognition user interface
US6643639B2 (en) * 2001-02-07 2003-11-04 International Business Machines Corporation Customer self service subsystem for adaptive indexing of resource solutions and resource lookup
ATE317583T1 (de) * 2001-03-29 2006-02-15 Koninkl Philips Electronics Nv Texteditierung von erkannter sprache bei gleichzeitiger wiedergabe
ATE286294T1 (de) * 2001-03-29 2005-01-15 Koninkl Philips Electronics Nv Synchronisierung eines audio- und eines textcursors während der editierung
US7139713B2 (en) * 2002-02-04 2006-11-21 Microsoft Corporation Systems and methods for managing interactions from multiple speech-enabled applications
US7640160B2 (en) * 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10553209B2 (en) * 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2013038440A1 (ja) * 2011-09-13 2013-03-21 三菱電機株式会社 ナビゲーション装置
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US9190074B1 (en) * 2013-01-30 2015-11-17 Google Inc. Multi-level voice menu
CN104076916B (zh) * 2013-03-29 2017-05-24 联想(北京)有限公司 一种信息处理方法以及电子设备
US9026176B2 (en) * 2013-05-12 2015-05-05 Shyh-Jye Wang Message-triggered voice command interface in portable electronic devices
FR3011375B1 (fr) * 2013-10-01 2017-01-27 Aldebaran Robotics Procede de dialogue entre une machine, telle qu'un robot humanoide, et un interlocuteur humain, produit programme d'ordinateur et robot humanoide pour la mise en œuvre d'un tel procede
US20150199965A1 (en) * 2014-01-16 2015-07-16 CloudCar Inc. System and method for recognition and automatic correction of voice commands
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
US9632748B2 (en) * 2014-06-24 2017-04-25 Google Inc. Device designation for audio input monitoring
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices

Also Published As

Publication number Publication date
US9940929B2 (en) 2018-04-10
US20170169817A1 (en) 2017-06-15
CN107025906B (zh) 2020-10-02
CN107025906A (zh) 2017-08-08

Similar Documents

Publication Publication Date Title
DE102016122708A1 (de) Verlängern des Spracherkennungszeitraums
DE102011054197B4 (de) Selektive Übertragung von Sprachdaten
DE102014117504B4 (de) Verwenden von Kontext zum Interpretieren von natürlichen Spracherkennungsbefehlen
DE102015110621A1 (de) Intelligente Untertitel
DE102016109521A1 (de) Multimodale Disambiguierung einer sprachunterstützten Eingabe
DE102018114658A1 (de) Eingabe während einer Unterhaltungssitzung
DE102016103216A1 (de) Serielle visuelle Präsentation für tragbare Anzeigen
DE102015100900A1 (de) Einstellen einer Spracherkennung unter Verwendung einer Kontextinformation
DE202017103860U1 (de) Kontextabhängige Task-Shortcuts
US20170169819A1 (en) Modifying input based on determined characteristics
DE102017121758A1 (de) Intelligente Assistenz für wiederholte Aktionen
DE102015119592A1 (de) Durch einen Blick veranlasste Spracherkennung
DE102014107027A1 (de) Management von virtuellen Assistentaktionseinheiten
DE102017115933B4 (de) Koordinieren einer Eingabe an mehreren lokalen Geräten
DE102015109204A1 (de) Echtzeitänderung eines Eingabeverfahrens basierend auf Sprachkontext
DE112016000159B4 (de) Systeme und Verfahren zum Verlängern der Batteriebetriebsdauer durch Überwachung der Mobilanwendungsaktivität
DE102017126306A1 (de) Kontextabhängiger Koversionsmodus für digitalen Assistenten
DE102017115936A1 (de) Systeme und Verfahren zum Aktivieren eines Sprachassistenten und Bereitstellen eines Indikators, dass der Sprachassistent Hilfe zu leisten hat
DE102018126871A1 (de) Erkennung von Wake-up-Wörtern
US9285856B2 (en) Method and system for rapid entry into and for rapid exiting from sleep states for processors of a portable computing device
DE102018131935A1 (de) Time-Capsule-basierte Sprechhilfe
DE102016113914A1 (de) Einfügung von Zeichen bei Spracherkennung
DE102018118349A1 (de) Verfahren und vorrichtung zum auswählen einer audioausgabeschaltung basierend auf prioritätsattributen
WO2021196610A1 (zh) 一种设备推荐方法、装置、电子设备及可读存储介质
CN112185369A (zh) 一种基于语音控制的音量调节方法、装置、设备和介质

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R082 Change of representative

Representative=s name: GRUENECKER PATENT- UND RECHTSANWAELTE PARTG MB, DE