DE102014117504A1 - Verwenden von Kontext zum Interpretieren von natürlichen Spracherkennungsbefehlen - Google Patents

Verwenden von Kontext zum Interpretieren von natürlichen Spracherkennungsbefehlen Download PDF

Info

Publication number
DE102014117504A1
DE102014117504A1 DE102014117504.2A DE102014117504A DE102014117504A1 DE 102014117504 A1 DE102014117504 A1 DE 102014117504A1 DE 102014117504 A DE102014117504 A DE 102014117504A DE 102014117504 A1 DE102014117504 A1 DE 102014117504A1
Authority
DE
Germany
Prior art keywords
context data
command
information handling
processor
handling device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102014117504.2A
Other languages
English (en)
Other versions
DE102014117504B4 (de
Inventor
Peter Wetsel
Jonathan Knox
Suzanne Beaumont
Russell Speight VanBlon
Rod D. Waltermann
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo PC International Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of DE102014117504A1 publication Critical patent/DE102014117504A1/de
Application granted granted Critical
Publication of DE102014117504B4 publication Critical patent/DE102014117504B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

Eine Ausführungsform stellt ein Verfahren bereit, das Folgendes umfasst: Empfangen einer Spracheingabe eines Benutzers an einem Audioempfänger eines Informationshandhabungsgeräts; Identifizieren von Wörtern, die in der Spracheingabe des Benutzers enthalten sind unter Verwenden eines Prozessors; Bestimmen, ob eines der identifizierten Wörter einen in der Spracheingabe des Benutzers enthaltenen Befehl unklar erscheinen lässt unter Verwenden des Prozessors; Zugreifen auf Kontextdaten unter Verwenden des Prozessors; Eindeutig machen des Befehls, basierend auf den Kontextdaten unter Verwenden des Prozessors; und Begehen einer vorbestimmten Maßnahme gemäß dem Befehl unter Verwenden des Prozessors. Andere Aspekte werden beschrieben und beansprucht.

Description

  • Hintergrund
  • Informationshandhabungsgeräte ("Geräte"), zum Beispiel Laptopcomputer, Tablets, Smartphones, Desktop-Computer, Smartfernseher, Navigationsgeräte, Autokonsolen usw. können verwendet werden, um Spracheingaben zu verarbeiten, die z. B. durch einen Audioempfänger wie ein Mikrofon empfangen wurden. Die Spracherkennungstechnologie ermöglicht es einem Gerät zum Beispiel, gesprochene Wörter in Maschinentext umzuwandeln, z. B. durch Umwandeln eines digitalen Audiosignals in ein Maschinentextwort für den Gebrauch in einer zugrundeliegenden Anwendung, z. B. einem textbearbeitenden Dokument, einer Suchanwendung usw.. Herkömmliche Verbesserungen der Spracherkennungstechnologie befassten sich vorwiegend mit der Genauigkeit der Erkennung, d.h. das Wort oder die Wörter, die tatsächlich vom Benutzer gesprochen wurden, genau zu identifizieren.
  • Kurze Zusammenfassung
  • Zusammenfassend stellt ein Aspekt ein Verfahren bereit, das Folgendes umfasst: Empfangen einer Spracheingabe eines Benutzers an einem Audioempfänger eines Informationshandhabungsgerätes; Identifizieren von Wörtern, die in der Spracheingabe des Benutzers enthalten sind unter Verwenden eines Prozessors; Bestimmen, ob eines der identifizierten Wörter einen in der Spracheingabe des Benutzers enthaltenen Befehl unklar erscheinen lässt unter Verwenden des Prozessors; Zugreifen auf Kontextdaten unter Verwenden des Prozessors; Eindeutig machen des Befehls, basierend auf den Kontextdaten unter Verwenden des Prozessors; Begehen einer vorbestimmten Maßnahme gemäß dem Befehl unter Verwenden des Prozessors.
  • Ein weiterer Aspekt stellt ein Informationshandhabungsgerät bereit, welches Folgendes umfasst: einen Audioempfänger; einen Prozessor; und eine Speichervorrichtung, die Anweisungen speichert, welche durch den Prozessor ausführbar sind, um: an dem Audioempfänger des Informationshandhabungsgeräts eine Spracheingabe eines Benutzers zu empfangen; in der Spracheingabe des Benutzers enthaltene Wörter zu identifizieren; bestimmen, ob eines der identifizierten Wörter einen in der Spracheingabe des Benutzers enthaltenen Befehl unklar erscheinen lässt; auf Kontextdaten zuzugreifen; den Befehl, basierend auf den Kontextdaten, eindeutig zu machen; und eine vorbestimmte Maßnahme gemäß dem Befehl zu begehen.
  • Ein weiterer Aspekt stellt ein Produkt bereit, das Folgendes umfasst: ein Speichergerät, auf dem Code enthalten ist, wobei der Codeumfasst: Code, der an einem Audioempfänger eines Informationshandhabungsgeräts eine Spracheingabe eines Benutzers empfängt; Code, der unter Verwenden eines Prozessors Wörter identifiziert, die in der Spracheingabe des Benutzers enthalten sind; Code, der unter Verwenden des Prozessors bestimmt, ob eines der identifizierten Wörter einen in der Spracheingabe des Benutzers enthaltenen Befehl unklar erscheinen lässt; Code, der unter Verwenden des Prozessors auf Kontextdaten zugreift; Code, der unter Verwenden des Prozessors den Befehl, basierend auf den Kontextdaten eindeutig macht; und Code, der unter Verwenden des Prozessors eine vorbestimmte Maßnahme gemäß dem Befehl begeht.
  • Das Vorangehende ist eine Zusammenfassung und kann daher Vereinfachungen, Verallgemeinerungen und Auslassungen von Einzelheiten enthalten; der Fachmann wird daher feststellen, dass die Zusammenfassung nur erläuternd ist und nicht die Absicht hat, in irgendeiner Weise beschränkend zu sein.
  • Um die Ausführungsformen, zusammen mit anderen und weiteren Merkmalen und Vorteilen hiervon besser verstehen zu können, wird auf die folgende Beschreibung Bezug genommen, in Verbindung mit den beigefügten Zeichnungen. Der Umfang der Erfindung wird in den angefügten Ansprüchen aufgezeigt.
  • Kurze Beschreibung der unterschiedlichen Ansichten der Zeichnungen
  • 1 zeigt ein Beispiel eines Schaltkreises eines Informationshandhabungsgeräts.
  • 2 zeigt ein weiteres Beispiel eines Informationshandhabungsgeräts.
  • 3 zeigt ein Beispiel eines Verfahrens zum Verwenden von Kontext, um natürliche Spracherkennungsbefehle zu interpretieren.
  • Ausführliche Beschreibung
  • Es versteht sich ohne Weiteres, dass die Komponenten der Ausführungsformen, wie allgemein in den Figuren hierin beschrieben und dargestellt, in einer Vielfalt von unterschiedlichen Konfigurationen neben den beschriebenen Ausführungsbeispielen eingerichtet und entworfen werden können. Die folgende, detailliertere Beschreibung der Ausführungsbeispiele, wie in den Figuren dargestellt, ist nicht dazu gedacht, den Umfang der Ausführungsformen, wie beansprucht, einzuschränken, sondern ist lediglich repräsentativ für beispielhafte Ausführungsformen.
  • Die Bezugnahme in dieser Beschreibung auf "eine Ausführungsform" oder "die Ausführungsform" (oder ähnliches) bedeutet, dass ein entsprechendes in Verbindung mit der Ausführungsform beschriebenes Merkmal, Struktur oder Eigenschaft in zumindest einer Ausführungsform enthalten ist. Die Erscheinung der Redewendungen "in einer Ausführungsform" oder "in der Ausführungsform" oder ähnliches an verschiedenen Stellen in dieser Beschreibung bezieht sich nicht unbedingt auf dieselbe Ausführungsform.
  • Des Weiteren können die beschriebenen Merkmale, Strukturen oder Eigenschaften in einer geeigneten Weise bei einer oder mehreren Ausführungsformen kombiniert werden. In der folgenden Beschreibung werden zahlreiche konkrete Einzelheiten bereitgestellt, um die Ausführungsformen besser verstehen zu können. Ein Fachmann wird jedoch erkennen, dass die unterschiedlichen Ausführungsformen ohne eine oder mehrere der konkreten Einzelheiten oder mit anderen Verfahren, Komponenten, Materialien usw. durchführbar sind. In anderen Fällen werden gut bekannte Strukturen, Materialien oder Operationen nicht dargestellt oder genau beschrieben, um Verwirrung zu vermeiden.
  • Spracherkennungstechnologie ist beliebt und wird in Verbindung mit einer Vielfalt von Anwendungen verwendet. Zum Beispiel können viele Geräte-Anwendungen, z. B. Internet-Suchanwendungen, Textverarbeitungsanwendungen, Kommunikationsanwendungen (Chat, E-Mail, SMS-Text usw.) und ähnliche Anwendungen Spracheingaben des Benutzers erfassen und diese Spracheingabe in von Maschinen verwendbare Form (hier als Maschinentext bezeichnet – ungeachtet ob das Sprachsignal wortwörtlich in Text umgewandelt wird) umwandeln zur Verwendung durch eine Anwendung. Zum Beispiel kann ein Benutzer einen Spracheingabebefehl wie "schicke diese Datei meinem Freund Jon" bereitstellen.
  • Aktuelle Spracherkennungstechnologien werden diese Spracheingabe treu und genau identifizieren. Deshalb wird eine herkömmliche Spracherkennung genau bestimmen, dass der Benutzer wortwörtlich die Wörter "schicke diese Datei meinem Freund Jon" gesagt hat. Jedoch ist es eine ganz andere Sache, entsprechend einer durch den Benutzer beabsichtigten Art und Weise auf die Spracheingabe zu reagieren. Deshalb muss die Spracheingabe analysiert und verstanden werden, damit die Vorrichtung eine geeignete Maßnahme ausführen kann, z. B. bestimmt werden, welche Datei "diese" Datei ist, welches Ziel mit "Jon" gemeint ist, welche Form von Kommunikation verwendet werden soll (z. B. E-Mail, Text usw.).
  • Dementsprechend bietet eine Ausführungsform Mechanismen für den Einsatz von Kontext, um natürliche Spracherkennungsbefehle zu interpretieren. In einer Ausführungsform werden mehrere Wörter identifiziert, die z. B. zweifelsohne bekannt sind. Eine Ausführungsform ergänzt die Standardausführung von vorprogrammierten oder vorbestimmten Befehlen, z. B. Gebrauch von bestimmten Schlüsselwörtern oder auslösende Redewendungen, mit der Fähigkeit, die Quelle der Mehrdeutigkeit innerhalb des Befehls zu bestimmen (z. B. die, die den Befehl normalerweise unausführbar machen würden) zusammen mit der Fähigkeit, Kontextdaten zu nutzen (aus einer Vielfalt von Quellen), die den Befehl so eindeutig machen, dass er ausführbar ist.
  • Die dargestellten Ausführungsbeispiele sind am besten durch Bezug auf die Figuren zu verstehen. Die folgende Beschreibung dient nur als Beispiel und zeigt lediglich bestimmte Ausführungsbeispiele.
  • Während mehrere unterschiedliche Stromkreise, Schaltkreise oder Komponenten bei Informationshandhabungsgeräten im Zusammenhang mit dem Schaltkreis eines Smartphones oder Tablets 100 verwendet werden können, umfasst ein in 1 gezeigtes Beispiel ein System-on-Chip-Design, das zum Beispiel in einem Tablet oder sonstigen Rechnerplattformen zu finden ist. Software und Prozessor(en) werden in einem einzigen Chip 110 kombiniert. Prozessoren umfassen interne arithmetische Einheiten, Register, Cache-Speicher, Busse, E/A-Ports usw., die in der Fachwelt gut bekannt sind. Interne Busse und Ähnliches hängen von den unterschiedlichen Anbietern ab, jedoch sind alle peripheren Geräte (120) im Wesentlichen an einem einzigen Chip 110 anschließbar. Der Schaltkreis 100 kombiniert den Prozessor, Speichersteuerung und E/A-Kontrollerhub in einem einzigen Chip 110. Auch verwenden Systeme 100 dieser Art normalerweise nicht SATA oder PCI oder LPC. Übliche Schnittstellen sind z. B. SDIO und I2C.
  • Es gibt Energieverwaltungschips 130, z. B. eine Batterieverwaltungseinheit, BMU, welche z. B. über eine wiederaufladbare Batterie 140, welche durch Anschluss an einer Stromquelle (nicht dargestellt) wieder aufgeladen werden kann, gelieferte Energie verwaltet. Bei zumindest einem Design wird ein einziger Chip, z. B. 110, verwendet, um BIOS-ähnliche Funktionalität und DRAM-Speicher bereitzustellen.
  • System 100 umfasst typischerweise einen oder mehrere eines WWAN-Transceivers 150 und eines WLAN-Transceivers 160 zum Verbinden mit verschiedenen Netzwerken, wie Telekommunikationsnetzwerken und drahtlosen Internetvorrichtungen, z. B. Zugangspunkten. Des Weiteren ist eine der zusätzlichen Vorrichtungen 120 üblicherweise ein Mikrofon, welches physikalische Elemente einbezieht, die Schallwellen in elektrische Audiosignale umwandeln. Üblicherweise wird System 100 einen berührungsempfindlichen Bildschirm 170 für die Dateneingabe und Anzeige/Wiedergabe enthalten. System 100 umfasst normalerweise auch verschiedene Speichervorrichtungen, z. B. Flash-Speicher 180 und SDRAM 190.
  • 2 zeigt ein Blockdiagramm eines anderen Beispiels von Stromkreisen, Schaltkreisen oder Komponenten von Informationshandhabungsgeräten. Das in 2 dargestellte Beispiel entspricht Rechensystemen wie die THINKPAD-Serie von Personal Computer, die von Lenovo (US) Inc. of Morrisville, NC vertrieben werden, oder sonstigen Vorrichtungen. Wie aus der Beschreibung hierin ersichtlich ist, können Ausführungsformen andere Merkmale oder nur einige der Merkmale des Beispiels der 2 umfassen.
  • Das Beispiel der 2 umfasst einen so genannten Chipsatz 210 (eine Gruppe von integrierten Schaltkreisen oder Chips, die zusammen arbeiten, Chipsätze) mit einer Architektur, die je nach Hersteller unterschiedlich sein kann (z. B. INTEL, AMD, ARM, usw.). INTEL ist ein eingetragenes Warenzeichen der Intel Corporation in den Vereinigten Staaten und/oder anderen Ländern. AMD ist ein eingetragenes Warenzeichen der Advanced Micro Devices, Inc. in den Vereinigten Staaten und/oder anderen Ländern. ARM ist ein nicht eingetragenes Warenzeichen der ARM Holdings plc in den Vereinigten Staaten und/oder anderen Ländern. Die Architektur des Chipsatzes 210 umfasst eine Kern- und Speichersteuergruppe 220 und einen E/A-Steuerknoten 250, der Informationen (z. B. Daten, Signale, Befehle usw.) über eine direkte Managementschnittstelle (DMI) 242 oder eine Verbindungssteuerung 244 austauscht. In 2 ist die DMI 242 eine Chip-zu-Chip-Schittstelle (auf die manchmal auch als Verbindung zwischen einer "northbridge" und einer "southbridge" Bezug genommen wird). Die Kern- und Speichersteuergruppe 220 umfasst einen oder mehrere Prozessoren 222 (zum Beispiel Einzel- oder Mehrkern) und einen Speichersteuerknoten 226, der Informationen über einen Front-Side-Bus (FSB) 224 austauscht; dabei ist zu beachten, dass Komponenten der Gruppe 220 in einem Chip integriert sein könnten, der die herkömmliche "northbridge"-Architektur ersetzt. Einer oder mehrere Prozessoren 222 umfassen interne arithmetische Einheiten, Register, Cache-Speicher, Busse, E/A-Ports usw., wie es im Stand der Technik bekannt ist.
  • In 2 bildet der Speichersteuerknoten 226 Schnittstellen mit dem Speicher 240 (um zum Beispiel Unterstützung für eine Art von RAM-Speicher bereitzustellen, auf den als "Systemspeicher" oder "Speicher" Bezug genommen werden kann). Der Speichersteuerhub 226 beinhaltet des Weiteren eine LVDS-Schnittstelle 232 für ein Anzeigegerät 292 (z. B. einen CRT, einen Flachbildschirm, einen Touchscreen usw.). Ein Block 238 umfasst einige Technologien, die über die LVDS-Schnittstelle 232 unterstützt werden können (z. B. serielle digitale Videos, HDMI/DVI, Anzeigeanschluss). Der Speichersteuerknoten 226 beinhaltet ebenfalls eine PCI-Express-Schnittstelle (PCI-E) 234, die diskrete Grafiken 236 unterstützen kann.
  • In 2 umfasst der E/A-Steuerknoten 250 eine SATA-Schnittstelle 251 (z. B. für HDDs, SDDs, usw., 280), eine PCI-E-Schnittstelle 252 (zum Beispiel für drahtlose Verbindungen 282), eine USB-Schnittstelle 253 (z. B. für Vorrichtungen 284 wie Digitalisierer, Tastatur, Mäuse, Kameras, Telefone, Mikrophone, Speicher, sonstige angeschlossene Geräte, usw.), eine Netzwerkschnittstelle 254 (zum Beispiel LAN), eine GPIO-Schnittstelle 255, eine LPC-Schnittstelle 270 (für ASICs 271, eine TPM 272, einen Super-E/A-Steuerknoten 273, einen Firmware-Knoten 274, eine BIOS-Unterstützung 275 sowie verschiedene Arten von Speichern 276 wie ROM 277, Flash 278 und NVRAM 279), eine Energieverwaltungsschnittstelle 261, eine Taktgeneratorschnittstelle 262, eine Audioschnittstelle 263 (zum Beispiel für Lautsprecher 294), eine TCO-Schnittstelle 264, eine Systemmanagementbus-Schnittstelle 265 und einen SPI-Flash 266, welcher eine BIOS 268 und einen Bootcode 290 enthalten kann. Der E/A-Steuerknoten 250 kann eine Gigabit-Ethernet-Unterstützung aufweisen.
  • Sobald das System eingeschaltet ist, kann es konfiguriert sein, um einen Bootcode 290 für die BIOS 268 auszuführen, wie sie in dem SPI Flash 266 gespeichert ist, und danach Daten unter der Steuerung von einem oder mehreren Betriebssystemen und Anwendungssoftware (die z. B. im Systemspeicher 240 gespeichert ist) zu verarbeiten. Ein Betriebssystem kann an einer Vielzahl von Stellen gespeichert sein und z. B. gemäß der Anweisungen des BIOS 268 auf dieses zugegriffen werden. Wie hier beschrieben kann eine Vorrichtung weniger oder mehr Funktionen, als die im System der 2 gezeigt werden, enthalten.
  • Ein Schaltkreis eines Informationshandhabungsgeräts, wie er zum Beispiel in 1 oder 2 gezeigt wird, kann in Geräten verwendet werden, die es Benutzern ermöglichen, Spracheingaben zu machen, z. B. unter Verwenden der Mikrofone der jeweiligen Geräte, die wiederum durch auf dem Gerät laufende Anwendungen genutzt werden können. In dieser Hinsicht kann der in 1 und 2 aufgeführte Schaltkreis, z. B. im Speicher der Vorrichtung, Spracherkennungssoftware enthalten, die das vom Benutzer gesprochene Wort (oder Wörter) für den Gebrauch als Eingabe, um Maßnahmen zu ergreifen (z. B. eine Maschinentexteingabe erstellen; einen Befehl ausführen, um eine Anwendung zu steuern usw.), identifiziert.
  • 3 zeigt ein Beispiel eines Verfahrens zum Verwenden von Kontext, um natürliche Spracherkennungsbefehle zu interpretieren. Wie dargestellt erhält eine Ausführungsform bei 301 eine Spracheingabe eines Benutzers, z. B. über ein in dem Gerät integriertes Mikrofon. Diese Spracheingabe kann dann bei 302 durch eine Spracherkennungsmaschine verarbeitet werden, um die wortwörtliche Eingabe genau zu identifizieren. Zum Beispiel wird die Spracheingabe eines Benutzers "schicke diese Datei meinem Freund Jon" von der Spracherkennungsmaschine bei 302 als die wortwörtliche Eingabe von "schicke", "diese", "Datei", "meinem" "Freund" und "Jon" erkannt werden.
  • Während bestimmte Technologien für das Zerlegen und Analysieren dieser Kette von Eingaben, d. h. "schicke", "diese", "Datei", "meinen", "Freund" und "Jon", existieren, um einen Befehl zu identifizieren, in diesem Fall einen "schicke"-Befehl, erscheinen die übrigen Wörter der Eingabe, auch wenn diese richtig identifiziert wurde, von dem Standpunkt aus, was geschickt werden soll, z. B. welche "Datei", an wen, z. B. welchen "Jon" und wie, z. B. per E-Mail, SMS-Text usw., dennoch als unklar.
  • Dementsprechend ermöglicht es eine Ausführungsform, diese Mehrdeutigkeiten in der Spracheingabe des Benutzers durch Verwenden von Kontext, der z. B. in der Spracheingabe selbst, in anderen Kontextdaten oder einer Kombination des Vorstehenden begründet ist, eindeutig zu machen. In diesem Beispiel identifiziert eine Ausführungsform, welches der identifizierten Wörter die Spracheingabe des Benutzers mehrdeutig erscheinen lässt. Da das Wort "schicke" mit einem Befehl verbunden werden kann, z. B. eine Datei zu übertragen, kann es nicht als Quelle einer Mehrdeutigkeit identifiziert werden.
  • Die Wörter "Datei" und "Jon" können jedoch, wie bei 303 bestimmt, besonders problematisch sein. Bei der Identifizierung von mehrdeutigen Wörtern innerhalb der Spracheingabe des Benutzers können von allein Kontextdaten wirksam eingesetzt werden. Zum Beispiel kann das Wort "schicke" bei den identifizierten Wörtern, die eine Mehrdeutigkeit hervorrufen, ausgelassen werden, indem eine direkte Kontextanalyse angewendet wird, z. B. indem "schicke" direkt mit einem Übertragen-Befehl und die Ausführungsart für die aktuell laufende Anwendung, die die Eingabe erhält, z. B. E-Mail-Anwendung, SMS, Textanwendung usw., vorzugeben.
  • Andererseits könnten andere Wörter nicht so leicht eindeutig zu machen sein und können daher als der Gegenstand weiterer Analyse unter Verwenden von zusätzlichem Kontext identifiziert werden, in diesem Fall z. B. "Datei" und "Jon". Mit der Identifizierung des Wortes "Jon" als Quelle der Mehrdeutigkeit bei 303 kann eine Ausführungsform Kontextdaten innerhalb der Spracheingabe des Benutzers wirksam einsetzen, z. B. "Freund", um eine zusätzliche Quelle von Kontextdaten ausfindig zu machen, z. B. "Freund"-Kontakte auf dem Gerät. Eine Ausführungsform kann demnach bei 304 auf Kontextdaten innerhalb der Spracheingabe des Benutzers sowie außerhalb der Spracheingabe des Benutzers zugreifen, z. B. Kontaktlisten und Teilgruppen davon, um zu versuchen, die Spracheingabe eindeutig zu machen und somit die geeignete Befehlsfunktion, die ausgeführt werden soll, zu identifizieren.
  • Des Weiteren können andere Kontextdaten verwendet werden. In diesem Beispiel kann das Wort "diese" als ein mehrdeutiges Wort vorbestimmt oder standardmäßig identifiziert werden und als solches bei 303 identifiziert werden. Das Wort "diese" kann demnach als auslösendes Ereignis, bei dem eine Ausführungsform auf zusätzliche Kontextdaten zugreift, um das Wort "diese" zu interpretieren/eindeutig zu machen, verwendet werden. Es ist zu beachten, dass andere solche Wörter in ähnlicher Weise behandelt werden können und dass das Wort "diese" als nicht beschränkendes Beispiel verwendet wird. Eine Ausführungsform könnte zum Beispiel in ähnlicher Weise "diese" oder "diese (mehrere)" eindeutig machen, z. B. in dem Fall, dass mehrere Dateien ausgewählt werden, um sie zu verschicken, oder mehrere Dateien geöffnet wurden usw.
  • Demnach wird eine Ausführungsform, nach der die Identifizierung einer Quelle der Mehrdeutigkeit innerhalb einer Spracheingabe des Benutzers, z. B. "diese", bei 303, gegebenenfalls bei 304 auf zusätzliche Kontextdaten zugreifen. Im Beispiel des Wortes "diese" kann eine Ausführungsform eine Analyse des Kontextes, in dem das Wort "diese" in der Spracheingabe des Benutzers erscheint, durchführen, z. B. unmittelbar vor dem Wort "Datei". Demnach werden (in diesem Fall von der Spracheingabe des Benutzers selbst abgeleitet) Kontextdaten verwendet, um einen Zusammenhang zwischen den Wörtern "Datei" und "diese" zu bestimmen. Dies ermöglicht eine weitere Analyse, z. B. Kontextdaten in Bezug auf "Dateien" zu verwenden.
  • In dieser Hinsicht können die Kontextdaten, auf die bei 304 zugegriffen wird, Dateien umfassen, die als sachdienlich für die aktuelle Situation bekannt sind, z. B. Dateien, die derzeitig in Anwendungen offen sind, eine Datei, die in einer laufenden Anwendung ausgewählt oder hervorgehoben ist, eine vor kurzem verwendete Datei oder Dateien, usw. Demnach kann eine vermutete Liste von "Objekten", d. h. Daten oder Dateien, die "diese" Datei verkörpern können, gesammelt werden.
  • Eine Ausführungsform kann daher bei 305 bestimmen, ob die Mehrdeutigkeit gelöst wurde. Zum Beispiel kann die Mehrdeutigkeit um das Wort "Jon" als gelöst angesehen werden, indem ein einziger "Jon" in einer Gruppe von Kontakten auf dem Gerät, der sich in einer "persönlichen" oder "Freunde"-Teilgruppe befindet, gefunden wird. Alternativ kann, sollte sich nur ein "Jon" unter den Kontakten befinden, diese Mehrdeutigkeit bei 305 als gelöst angesehen werden. Gleichermaßen kann, sollte nur eine Datei ausgewählt sein oder nur eine Anwendung mit einer offenen Datei identifiziert werden, die Mehrdeutigkeit bezüglich welche Datei "diese" Datei ist, bei 305 als gelöst angesehen werden.
  • Je nach der Anzahl der zu lösenden Mehrdeutigkeiten und/oder der statistischen Sicherheit, zu der die Mehrdeutigkeiten (oder eine Gruppe davon) gelöst wurden, kann eine Ausführungsform daraufhin bei 306 eine Maßnahme oder einen Befehl ausführen oder begehen. Wenn zum Beispiel nur eine Datei und nur ein Jon identifiziert werden, kann eine Ausführungsform automatisch eine vorbestimmte Maßnahme ergreifen, die der Spracheingabe "schicke diese Datei meinem Freund Jon" entspricht. Dies kann, erneut zum Teil basierend auf einer Mehrdeutigkeitsanalyse, wie oben beschrieben, oder entsprechend einer vorbestimmten Standardregel, indem z. B. eine ähnliche Übertragungsmodalität ausgewählt wird (z. B. ist es bis zu einem bestimmten Konfidenzgrad möglich, dass E-Mail die bevorzugte Art und Weise in diesem Kontext ist, z. B. basierend auf einem Benutzerverlauf der Übertragung von Dateien dieser Art) oder einer vorbestimmten Regel bezüglich der Art und Weise (z. B. SMS-Textnachrichten-Modalität verwenden, um eine Bilddatei an einen Kontakt zu schicken, der nur eine Telefonnummer und keine E-Mail hat), erfolgen.
  • Das Auflösen von Mehrdeutigkeiten kann mehrere Spracheingaben zur Lösung von Mehrdeutigkeiten, z. B. wie bei natürlichen Sprachbefehlen, berücksichtigen. Wenn der Benutzer, der den Sprachbefehl "schicke diese Datei meinem Freund Jon" vorher eine Datei gesucht hat, z. B. mit dem Sprachbefehl "suche die Datei mit dem Namen quarterlyearnings.ppt", kann eine Ausführungsform diese vorherige Spracheingabe, die z. B. unter Kontextdaten gespeichert ist, einsetzen, um richtig zu folgern, welche Datei "diese" Datei ist. In dieser Hinsicht kann der Kontext auf andere Anwendungen und/oder Vorrichtungen (z. B. aktive Anwendungen, Maschinenzustand usw.) zugreifen. Demzufolge könnte ein Sprachbefehl des Benutzers "schicke dies jedem, der bei der Versammlung anwesend war", unter der Voraussetzung, dass eine Ausführungsform als Kontextdaten Informationen speichern kann, um "dies" eindeutig einer konkreten Datei zuzuordnen, auch das "jedem" eindeutig als die Personen identifizieren, die in einem Kalendereintrag, der in einem Geräteterminkalender unter "Gestern" gespeichert wurde, enthalten sind.
  • Sollte eine Ausführungsform nicht bestimmen, dass die Mehrdeutigkeit bei 305 gelöst wurde, z. B. zu einem vorbestimmten Konfidenzgrenzwert, könnte eine Ausführungsform den Benutzer um weitere Eingabe bitten. Sollte zum Beispiel mehr als ein Kontakt mit dem Namen "Jon" in der Freunde-Teilgruppe der Kontakte vorliegen, könnte eine Ausführungsform den Benutzer um weitere eindeutig machende Eingaben bitten, z. B. eine Auswahl von einer Liste von Kontakten mit dem Namen Jon, einer Bitte nach einem Nachnamen, einer Adresse (oder einem Teil davon) usw., bevor der Befehl begangen wird. Sollte keine Mehrdeutigkeit gefunden werden, könnte eine Ausführungsform den Befehl ohne weitere Verzögerung bei 306 ausführen.
  • Bei der Lösung der Mehrdeutigkeit mithilfe von Kontextdaten bei 305 umfasst das Eindeutig Machen daher die Zuordnung eines Kontextdatenelements, z. B. eines Kontaktlisteneintrags zu dem identifizierten Wort, das den Befehl mehrdeutig macht, z. B. Jon. Die Zuordnung dieser Elemente kann demnach als Verknüpfung eines Geräteobjektes (z. B. die Kontaktnummer oder E-Mail des Kontakts "Jon") mit dem identifizierten Wort, welches den Befehl Mehrdeutig macht, mithilfe des Kontextdatenelements, z. B. "Jon", angesehen werden. Mit dieser Verknüpfung kann eine Ausführungsform im Grunde genommen das identifizierte Wort, welches den Befehl mehrdeutig macht, z. B. "Jon", durch eine Geräteobjektbezeichnung, z. B. Kontaktnummer, wodurch die Spracheingabe in "schicke [Bezeichnung des Dateiobjekts] meinem Freund [Bezeichnung des Kontaktobjekts]" oder gezielter "schicke [Datei a] an [123-456-7890]", ersetzen.
  • Demnach ermöglicht es eine Ausführungsform Benutzern, natürliche Sprachbefehle zu äußern, wobei die Mehrdeutigkeiten dieser natürlichen Sprachbefehle identifiziert und gelöst werden, sodass die Befehle mit oder ohne weitere Benutzereingabe (z. B. Bestätigung) ausgeführt werden können. Wie aus dem Vorhergehenden ersichtlich, ermöglicht es eine Ausführungsform einem Benutzer, weiter natürliche Spracheingaben oder Befehle mit einer minimalen Anzahl von Fehlern bezüglich der Ausführung der entsprechenden Befehle oder Maßnahmen zu verwenden.
  • Wie der Fachmann bemerken wird, können verschiedene Aspekte in einem System, Verfahren oder Geräteprogramm-Produkt enthalten sein. Dementsprechend können Aspekte die Form einer vollständigen Hardwareausführungsform oder einer Ausführungsform, die Software einschließt, annehmen, auf die allgemein als "Schaltkreis", "Modul" oder "System" Bezug genommen werden kann. Des Weiteren können Aspekte die Form eines Geräteprogramm-Produktes annehmen, das in einem oder mehreren gerätelesbaren Medien integriert ist, die darin enthaltenen gerätelesbaren Programmcode aufweisen.
  • Es sollte beachtet werden, dass die hier beschriebenen unterschiedlichen Funktionen unter Verwenden von in einem gerätelesbaren Speichermedium, wie einer Nicht-Signal-Speichervorrichtung, gespeicherte, durch einen Prozessor ausführbare Anweisungen implementiert werden können. Eine beliebige Kombination von einem oder mehreren Nicht-Signal gerätelesbaren Speichermedien kann verwendet werden. Ein Speichermedium kann z. B. ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, Vorrichtung, oder Gerät oder irgendeine geeignete Kombination davon sein. Konkretere Beispiele von Speichermedien würden die Folgenden umfassen: eine tragbare Computerdiskette, eine Festplatte, Schreib-Lese-Speicher (RAM), Nur-Lese-Speicher (ROM), ein löschbarer, programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), eine Glasfaserleiter, einen tragbaren Compact Disc-Nur-Lese-Speicher (CD-ROM), ein optisches Speichergerät, ein magnetisches Speichergerät oder eine geeignete Kombination davon. Im Zusammenhang mit diesem Dokument ist ein Speichermedium nicht ein Signal und umfasst "nicht vorübergehend" alle Medien, ausgenommen Signalmedien.
  • Auf einem Speichermedium enthaltener Programmcode kann unter Verwenden eines geeigneten Mediums, welches drahtlose, drahtgebundene Lichtleiterfasern, RF usw. oder eine geeignete Kombination davon einschließt aber nicht darauf begrenzt ist, übertragen werden.
  • Programmcode für die Ausführung von Operationen kann in einer beliebigen Kombination von Programmiersprachen geschrieben werden. Der Programmcode kann vollständig auf einem einzigen Gerät, zum Teil auf einem einzigen Gerät, als alleinstehendes Softwarepaket, zum Teil auf einem einzigen Gerät und zum Teil auf einem anderen Gerät oder vollständig auf dem anderen Gerät ausgeführt werden. In manchen Fällen können die Geräte durch eine beliebige Art von Verbindung oder einem Netzwerk verbunden werden, einschließlich eines lokalen Netzwerks (LAN) oder eines Weitbereichsnetzwerks (WAN), oder die Verbindung kann durch andere Geräte (z. B. über das Internet unter Verwenden eines Internet Service Providers), durch drahtlose Verbindungen, z. B. Nahfeldkommunikation oder durch eine festverdrahtete Verbindung wie über einen USB-Anschluss, erfolgen.
  • Hierin werden Ausführungsbeispiele in Bezug auf Figuren beschrieben, die beispielhafte Verfahren, Geräte und Programmprodukte entsprechend der unterschiedlichen Ausführungsbeispiele beschreiben. Es versteht sich, dass die Maßnahmen und Funktionalität zumindest zum Teil durch Programminstruktionen implementiert werden können. Diese Programminstruktionen können von einem Prozessor eines Informationshandhabungsgeräts für allgemeine Zwecke, eines Informationshandhabungsgeräts mit speziellem Zweck oder einem anderen programmierbaren Datenverarbeitungsgerät bereitgestellt werden, sodass die Instruktionen, die über einen Prozessor des Geräts ausgeführt werden, die angegebenen Funktionen/Handlungen durchführen.
  • Es sei anzumerken, dass während konkrete Blöcke in den Figuren verwendet werden und eine bestimmte Anordnung von Blöcken dargestellt ist, dies keine begrenzenden Beispiele sind. In bestimmten Zusammenhängen können zwei oder mehr Blöcke kombiniert werden, ein Block in zwei oder mehr Blöcke aufgeteilt werden oder bestimmte Blöcke geeignet neu geordnet oder neu organisiert werden, zumal die expliziten Beispiele nur zu beschreibenden Zwecken verwendet werden und nicht begrenzend auszulegen sind.
  • Wie hierin verwendet, kann der Singular "ein" so ausgelegt werden, dass er den Plural "einen oder mehr" einbezieht, sofern nicht anders angegeben.
  • Diese Offenbarung wurde zu Zwecken der Darstellung und Beschreibung vorgestellt, hat jedoch nicht die Absicht, vollständig oder einschränkend zu sein. Viele Veränderungen und Abweichungen werden für den Fachmann ersichtlich sein. Die beispielhaften Ausführungsformen wurden ausgewählt und beschrieben, um Prinzipien und praktische Anwendungen zu erklären und es dem Durchschnittsfachmann zu ermöglichen, die Offenbarung von verschiedenen Ausführungsformen mit verschiedenen Veränderungen, wie sie für den jeweiligen Gebrauch geeignet sind, zu verstehen.
  • Dementsprechend versteht es sich, dass diese Beschreibung, auch wenn beispielhafte Ausführungsformen in Bezug auf die begleitenden Figuren beschrieben wurden, nicht einschränkend ist und dass verschiedene andere Änderungen dieser von einem Fachmann vorgenommen werden können, ohne vom Geist der Offenbarung abzuweichen.

Claims (20)

  1. Verfahren, umfassend: – Empfangen einer Spracheingabe eines Benutzers an einem Audioempfänger eines Informationshandhabungsgeräts; – Identifizieren von Wörtern, die in der Spracheingabe des Benutzers enthalten sind, unter Verwenden eines Prozessors; – Bestimmen, ob mindestens eines der identifizierten Wörter einen in der Benutzerspracheingabe enthaltenen Befehl unklar erscheinen lässt, unter Verwenden des Prozessors; – Zugreifen auf Kontextdaten unter Verwenden des Prozessors; – Eindeutig machen des Befehls, basierend auf den Kontextdaten, unter Verwenden des Prozessors; und – Begehen einer vorbestimmten Maßnahme gemäß dem Befehl, unter Verwenden des Prozessors.
  2. Verfahren nach Anspruch 1, wobei die Kontextdaten von der Spracheingabe abgeleitet werden.
  3. Verfahren nach Anspruch 2, wobei die von der Spracheingabe abgeleiteten Kontextdaten ein in der Spracheingabe enthaltenes identifiziertes Wort umfassen, das aus der Gruppe von Wörtern ausgewählt ist, die aus einem Kontakt und einem Anwendungsnamen bestehen.
  4. Verfahren nach Anspruch 1, wobei die Kontextdaten von einer Liste offener Anwendungen auf dem Informationshandhabungsgerät abgeleitet werden.
  5. Verfahren nach Anspruch 1, wobei die Kontextdaten von einer Liste zuletzt auf dem Informationshandhabungsgerät verwendeten Anwendungen abgeleitet werden.
  6. Verfahren nach Anspruch 1, wobei die Kontextdaten von einer Liste zuletzt auf dem Informationshandhabungsgerät verwendeten Objekten abgeleitet werden.
  7. Verfahren nach Anspruch 1, wobei das Eindeutig Machen ein Zuordnen eines Kontextdatenelements zu dem identifizierten Wort, das den Befehl unklar erscheinen lässt, umfasst.
  8. Verfahren nach Anspruch 7, wobei das Zuordnen die Verknüpfung eines Geräteobjekts mit dem identifizierten Wort, das den Befehl unklar erscheinen lässt, durch Verwendung des Kontextdatenelements umfasst.
  9. Verfahren nach Anspruch 8, das weiter ein Ersetzen des identifizierten Worts, welches den Befehl unklar erscheinen lässt, durch einen Geräteobjektidentifikator umfasst.
  10. Verfahren nach Anspruch 9, wobei der Geräteobjektidentifikator ein Dateiname ist, der auf das Geräteobjekt verweist, das Gegenstand des Befehls ist.
  11. Informationshandhabungsgerät, umfassend: – einen Audioempfänger, – einen Prozessor und – eine Speichervorrichtung, die durch den Prozessor ausführbare Anweisungen speichert, um: – Empfangen einer Spracheingabe eines Benutzers auf dem Audioempfänger eines Informationshandhabungsgeräts; – Identifizieren von Wörtern, die in der Spracheingabe des Benutzers enthalten sind; – Bestimmen, ob mindestens eines der identifizierten Wörter einen in der Spracheingabe des Benutzers enthaltenen Befehl unklar erscheinen lässt; – Zugreifen auf Kontextdaten; – Eindeutig machen des Befehls basierend auf den Kontextdaten; und – Begehen einer vorbestimmten Maßnahme gemäß dem Befehl.
  12. Informationshandhabungsgerät nach Anspruch 11, wobei die Kontextdaten von der Spracheingabe abgeleitet sind.
  13. Informationshandhabungsgerät nach Anspruch 12, wobei die von der Spracheingabe abgeleiteten Kontextdaten ein in der Spracheingabe enthaltenes identifiziertes Wort umfassen, das aus einer Gruppe von Wörtern ausgewählt ist, die aus einem Kontakt und einem Anwendungsnamen bestehen.
  14. Informationshandhabungsgerät nach Anspruch 11, wobei die Kontextdaten von einer Liste offener Anwendungen auf dem Informationshandhabungsgerät abgeleitet sind.
  15. Informationshandhabungsgerät nach Anspruch 11, wobei die Kontextdaten von einer Liste zuletzt auf dem Informationshandhabungsgerät verwendeter Anwendungen abgeleitet sind.
  16. Informationshandhabungsgerät nach Anspruch 11, wobei die Kontextdaten von einer Liste zuletzt auf dem Informationshandhabungsgerät verwendeter Objekte abgeleitet sind.
  17. Informationshandhabungsgerät nach Anspruch 11, wobei das Eindeutig Machen ein Zuordnen eines Kontextdatenelements zu dem identifizierten Wort, das den Befehl unklar erscheinen lässt, umfasst.
  18. Informationshandhabungsgerät nach Anspruch 7, wobei das Zuordnen die Verknüpfung eines Geräteobjekts mit dem identifizierten Wort, das den Befehl unklar erscheinen lässt, durch Verwendung des Kontextdatenelements umfasst.
  19. Informationshandhabungsgerät nach Anspruch 8, welches weiter ein Ersetzen des identifizierten Worts, welches den Befehl unklar erscheinen lässt, durch einen Geräteobjektidentifikator umfasst.
  20. Produkt, umfassend: – ein Speichergerät, auf dem Code gespeichert ist, wobei der Code umfasst: – Code, der eine Spracheingabe eines Benutzers an einem Audioempfänger eines Informationshandhabungsgeräts empfängt, – Code, der unter Verwenden eines Prozessors Wörter, die in der Spracheingabe des Benutzers enthalten sind, identifiziert, – Code, der unter Verwenden des Prozessors bestimmt, ob eines der identifizierten Wörter einen in der Spracheingabe des Benutzers enthaltenen Befehl unklar erscheinen lässt, – Code, der unter Verwenden des Prozessors auf Kontextdaten zugreift, – Code, der unter Verwenden des Prozessors den Befehl basierend auf den Kontextdaten eindeutig macht, und – Code, der unter Verwenden des Prozessors eine vorbestimmte Maßnahme gemäß dem Befehl begeht.
DE102014117504.2A 2013-12-05 2014-11-28 Verwenden von Kontext zum Interpretieren von natürlichen Spracherkennungsbefehlen Active DE102014117504B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/097,954 US11138971B2 (en) 2013-12-05 2013-12-05 Using context to interpret natural language speech recognition commands
US14/097,954 2013-12-05

Publications (2)

Publication Number Publication Date
DE102014117504A1 true DE102014117504A1 (de) 2015-06-11
DE102014117504B4 DE102014117504B4 (de) 2023-10-12

Family

ID=53185434

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014117504.2A Active DE102014117504B4 (de) 2013-12-05 2014-11-28 Verwenden von Kontext zum Interpretieren von natürlichen Spracherkennungsbefehlen

Country Status (3)

Country Link
US (1) US11138971B2 (de)
CN (1) CN104699236A (de)
DE (1) DE102014117504B4 (de)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10185477B1 (en) 2013-03-15 2019-01-22 Narrative Science Inc. Method and system for configuring automatic generation of narratives from data
US9720899B1 (en) 2011-01-07 2017-08-01 Narrative Science, Inc. Automatic generation of narratives from data using communication goals and narrative analytics
US10741182B2 (en) * 2014-02-18 2020-08-11 Lenovo (Singapore) Pte. Ltd. Voice input correction using non-audio based input
US10276154B2 (en) 2014-04-23 2019-04-30 Lenovo (Singapore) Pte. Ltd. Processing natural language user inputs using context data
JP6024719B2 (ja) * 2014-09-09 2016-11-16 カシオ計算機株式会社 検出装置、検出方法、及びプログラム
US20160078864A1 (en) * 2014-09-15 2016-03-17 Honeywell International Inc. Identifying un-stored voice commands
US11341338B1 (en) 2016-08-31 2022-05-24 Narrative Science Inc. Applied artificial intelligence technology for interactively using narrative analytics to focus and control visualizations of data
US11922344B2 (en) 2014-10-22 2024-03-05 Narrative Science Llc Automatic generation of narratives from data using communication goals and narrative analytics
US11238090B1 (en) 2015-11-02 2022-02-01 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from visualization data
AU2015390534B2 (en) 2015-04-10 2019-08-22 Honor Device Co., Ltd. Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal
WO2016205338A1 (en) * 2015-06-18 2016-12-22 Amgine Technologies (Us), Inc. Managing interactions between users and applications
US11188588B1 (en) 2015-11-02 2021-11-30 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to interactively generate narratives from visualization data
US11222184B1 (en) 2015-11-02 2022-01-11 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from bar charts
US11232268B1 (en) 2015-11-02 2022-01-25 Narrative Science Inc. Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from line charts
EP3414758B1 (de) * 2016-02-12 2020-09-23 Samsung Electronics Co., Ltd. Verfahren und elektronische vorrichtung zur durchführung von sprachbasierten aktionen
US20170286133A1 (en) * 2016-03-29 2017-10-05 Microsoft Technology Licensing, Llc One Step Task Completion
CN106022357A (zh) * 2016-05-11 2016-10-12 珠海市魅族科技有限公司 一种数据输入校准的方法及终端
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
US10741174B2 (en) * 2017-01-24 2020-08-11 Lenovo (Singapore) Pte. Ltd. Automatic language identification for speech
US11954445B2 (en) 2017-02-17 2024-04-09 Narrative Science Llc Applied artificial intelligence technology for narrative generation based on explanation communication goals
US11068661B1 (en) 2017-02-17 2021-07-20 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on smart attributes
US10943069B1 (en) 2017-02-17 2021-03-09 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on a conditional outcome framework
US10755053B1 (en) 2017-02-17 2020-08-25 Narrative Science Inc. Applied artificial intelligence technology for story outline formation using composable communication goals to support natural language generation (NLG)
US11568148B1 (en) 2017-02-17 2023-01-31 Narrative Science Inc. Applied artificial intelligence technology for narrative generation based on explanation communication goals
CN108632776A (zh) * 2017-03-21 2018-10-09 上海传英信息技术有限公司 一种手机充值方法及装置
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
CN111539215A (zh) * 2017-05-19 2020-08-14 北京蓦然认知科技有限公司 一种用于自然语言内容标题消歧的方法、设备和系统
US11221823B2 (en) * 2017-05-22 2022-01-11 Samsung Electronics Co., Ltd. System and method for context-based interaction for electronic devices
US10614030B2 (en) 2017-06-02 2020-04-07 Microsoft Technology Licensing Llc Task creation and completion with bi-directional user interactions
CN107728783B (zh) * 2017-09-25 2021-05-18 联想(北京)有限公司 人工智能处理方法及其系统
US11042708B1 (en) 2018-01-02 2021-06-22 Narrative Science Inc. Context saliency-based deictic parser for natural language generation
US11023689B1 (en) 2018-01-17 2021-06-01 Narrative Science Inc. Applied artificial intelligence technology for narrative generation using an invocable analysis service with analysis libraries
JP2019185360A (ja) * 2018-04-09 2019-10-24 富士ゼロックス株式会社 情報処理装置およびプログラム
US11042713B1 (en) 2018-06-28 2021-06-22 Narrative Scienc Inc. Applied artificial intelligence technology for using natural language processing to train a natural language generation system
US10848443B2 (en) * 2018-07-23 2020-11-24 Avaya Inc. Chatbot socialization
US10990767B1 (en) 2019-01-28 2021-04-27 Narrative Science Inc. Applied artificial intelligence technology for adaptive natural language understanding
US11494647B2 (en) 2019-12-06 2022-11-08 Adobe Inc. Slot filling with contextual information
US20230081605A1 (en) * 2021-09-16 2023-03-16 Apple Inc. Digital assistant for moving and copying graphical elements

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5777614A (en) * 1994-10-14 1998-07-07 Hitachi, Ltd. Editing support system including an interactive interface
US6839669B1 (en) 1998-11-05 2005-01-04 Scansoft, Inc. Performing actions identified in recognized speech
JP2001188555A (ja) 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
US8374875B2 (en) 2000-01-31 2013-02-12 Intel Corporation Providing programming information in response to spoken requests
US7027975B1 (en) * 2000-08-08 2006-04-11 Object Services And Consulting, Inc. Guided natural language interface system and method
US6868383B1 (en) * 2001-07-12 2005-03-15 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
US6882974B2 (en) 2002-02-15 2005-04-19 Sap Aktiengesellschaft Voice-control for a user interface
AU2003275134A1 (en) * 2002-09-19 2004-04-08 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
US7324943B2 (en) 2003-10-02 2008-01-29 Matsushita Electric Industrial Co., Ltd. Voice tagging, voice annotation, and speech recognition for portable devices with optional post processing
US20060041564A1 (en) * 2004-08-20 2006-02-23 Innovative Decision Technologies, Inc. Graphical Annotations and Domain Objects to Create Feature Level Metadata of Images
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US7418281B2 (en) 2005-09-13 2008-08-26 International Business Machines Corporation Centralized voice recognition unit for wireless control of personal mobile electronic devices
US20070061712A1 (en) 2005-09-14 2007-03-15 Bodin William K Management and rendering of calendar data
US8620667B2 (en) * 2005-10-17 2013-12-31 Microsoft Corporation Flexible speech-activated command and control
US8018439B2 (en) 2006-03-22 2011-09-13 Zi Corporation Of Canada, Inc. Mobile appliance system and method enabling efficient entry
JP2008152580A (ja) 2006-12-18 2008-07-03 Matsushita Electric Ind Co Ltd 通信装置、及び通信方法
US8112402B2 (en) 2007-02-26 2012-02-07 Microsoft Corporation Automatic disambiguation based on a reference resource
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US8543622B2 (en) 2007-12-07 2013-09-24 Patrick Giblin Method and system for meta-tagging media content and distribution
US8255224B2 (en) 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US9311917B2 (en) * 2009-01-21 2016-04-12 International Business Machines Corporation Machine, system and method for user-guided teaching of deictic references and referent objects of deictic references to a conversational command and control system
US9213687B2 (en) * 2009-03-23 2015-12-15 Lawrence Au Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US8626511B2 (en) 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
KR20110114997A (ko) 2010-04-14 2011-10-20 한국전자통신연구원 자동 키워드 검출을 통한 방송서비스 제공장치 및 그 방법
US8655901B1 (en) * 2010-06-23 2014-02-18 Google Inc. Translation-based query pattern mining
US8473289B2 (en) 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
US8700655B2 (en) 2010-11-08 2014-04-15 At&T Intellectual Property I, L.P. Systems, methods, and computer program products for location salience modeling for multimodal search
EP2518722A3 (de) 2011-04-28 2013-08-28 Samsung Electronics Co., Ltd. Verfahren zur Bereitstellung einer Verbindungsliste und Anzeigevorrichtung damit
US9183835B2 (en) 2011-10-18 2015-11-10 GM Global Technology Operations LLC Speech-based user interface for a mobile device
CN103365834B (zh) * 2012-03-29 2017-08-18 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
US9699485B2 (en) 2012-08-31 2017-07-04 Facebook, Inc. Sharing television and video programming through social networking
US9547647B2 (en) * 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8606568B1 (en) * 2012-10-10 2013-12-10 Google Inc. Evaluating pronouns in context
KR20140054643A (ko) 2012-10-29 2014-05-09 삼성전자주식회사 음성인식장치 및 음성인식방법
US9100694B1 (en) 2013-03-14 2015-08-04 Google Inc. TV mode change in accordance with number of viewers present
US20150046418A1 (en) 2013-08-09 2015-02-12 Microsoft Corporation Personalized content tagging

Also Published As

Publication number Publication date
US11138971B2 (en) 2021-10-05
US20150161997A1 (en) 2015-06-11
CN104699236A (zh) 2015-06-10
DE102014117504B4 (de) 2023-10-12

Similar Documents

Publication Publication Date Title
DE102014117504B4 (de) Verwenden von Kontext zum Interpretieren von natürlichen Spracherkennungsbefehlen
DE102015101236B4 (de) Nichthörbare Spracheingabekorrektur
DE102014107027A1 (de) Management von virtuellen Assistentaktionseinheiten
US10783364B2 (en) Method, apparatus and device for waking up voice interaction function based on gesture, and computer readable medium
DE102015100900A1 (de) Einstellen einer Spracherkennung unter Verwendung einer Kontextinformation
DE102015117843A1 (de) Kontextbasierte Textkorrektur
DE102012109959A1 (de) Automatische Vergrößerungs- und Auswahlbestätigung
DE102017115933B4 (de) Koordinieren einer Eingabe an mehreren lokalen Geräten
DE102012107810A1 (de) Dynamische Benutzerschnittstelle basierend auf verbundenen Geräten
US20210248498A1 (en) Method and apparatus for training pre-trained knowledge model, and electronic device
DE102016113914B4 (de) Einfügung von Zeichen bei Spracherkennung
DE102018114453A1 (de) Interaktive Sessions
DE102016109554A1 (de) Änderung von suchergebnissen basierend auf kontextmerkmalen
DE102014117343B4 (de) Erfassen einer Pause in einer akustischen Eingabe in ein Gerät
DE102016120744A1 (de) Audioeingabe von Feldeinträgen
DE102017126306A1 (de) Kontextabhängiger Koversionsmodus für digitalen Assistenten
EP3327613A1 (de) Fingerabdruckeingabeverfahren, -vorrichtung und -endgerät
CN106020434B (zh) 人机接口设备输入融合的方法、设备及产品
DE102016109521A1 (de) Multimodale Disambiguierung einer sprachunterstützten Eingabe
DE102015118675A1 (de) Aggregatservice mit einer Nutzerschnittstelle
EP4044178A2 (de) Verfahren und vorrichtung zur durchführung von sprachaufweckung in mehreren sprachzonen, verfahren und vorrichtung zur spracherkennung in mehreren sprachzonen, vorrichtung und speichermedium
DE102014101042A1 (de) Modifizieren einer Eingabestifteingabe oder -reaktion unter Verwendung einer gefolgerten Bewegung
DE102014116454A1 (de) Verfügbarkeit von Inhalt für Aufgaben zur Verarbeitung von natürlicher Sprache
DE102018105401A1 (de) Interaktive session
DE102014101026A1 (de) Eingabestiftkurzschrift

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R082 Change of representative

Representative=s name: GRUENECKER PATENT- UND RECHTSANWAELTE PARTG MB, DE

R018 Grant decision by examination section/examining division
R081 Change of applicant/patentee

Owner name: LENOVO PC INTERNATIONAL LIMITED, HK

Free format text: FORMER OWNER: LENOVO (SINGAPORE) PTE. LTD., SINGAPUR, SG