DE102015101236B4

DE102015101236B4 - Nichthörbare Spracheingabekorrektur

Info

Publication number: DE102015101236B4
Application number: DE102015101236.7A
Authority: DE
Inventors: Russell Speight VanBlon; Rod D. Waltermann; Suzanne Beaumont
Original assignee: Lenovo Singapore Pte Ltd
Current assignee: Lenovo PC International Ltd
Priority date: 2014-02-18
Filing date: 2015-01-28
Publication date: 2023-09-07
Anticipated expiration: 2035-01-29
Also published as: GB201502621D0; DE102015101236A1; US10741182B2; CN104850542A; US20150235641A1; GB2524877B; GB2524877A; CN104850542B

Abstract

Verfahren, umfassend:- Akzeptieren einer Spracheingabe eines Nutzers an einem Audioempfänger eines Informationshandhabungsgeräts;- Aufnehmen einer nichthörbaren Eingabe, die zeitlich mit wenigstens einer Mehrdeutigkeit assoziiert ist, unter Verwenden eines Sensors;- Interpretieren der Spracheingabe unter Verwenden eines Prozessors;- Identifizieren wenigstens einer Mehrdeutigkeit beim Interpretieren der Spracheingabe unter Verwenden eines Prozessors;- danach Zugreifen auf eine gespeicherte nichthörbare Eingabe, die zeitlich mit der wenigstens einen Mehrdeutigkeit assoziiert ist; und- Anpassen einer Interpretation der Spracheingabe unter Verwenden der gespeicherten nichthörbaren Eingabe;- wobei das Aufnehmen der nichthörbaren Eingabe gemäß einer Strategie fortgesetzt wird; und- wobei die Strategie das Aufnehmen in Reaktion auf ein Erfassen eines Faktors erlaubt, der aus der Gruppe ausgewählt wird, bestehend aus: Historie eines geringen Spracherkennungsvertrauens, Erfassen von mehreren Sprachkandidaten, Erfassen von Hintergrundrauschen, das einen vorbestimmten Schwellenwert überschreitet, Erfassen eines wiederholten Wortes und Erfassen einer untypischen Sprachcharakteristik.

Description

Hintergrund
Informationshandhabungsgeräte („Geräte“), zum Beispiel Laptop-Computer, Tablets, Smartphones, E-Reader, Desktopcomputer, Smart-Fernseher, usw., können in Verbindung mit einer Spracheingabeschnittstelle verwendet werden, welche die Spracheingabe in einen Maschinentext konvertiert. Viele unterschiedliche Geräteapplikationen (z.B. alle jene, welche Texteingaben erlauben) können deshalb Spracheingaben verwenden, falls eine Spracheingabeschnittstelle bereitgestellt wird. Übliche Beispiele schließen Mitteilungsapplikationen (z.B. Sofortmitteilungsapplikationen, SMS-Textmitteilungsapplikationen, E-Mail-Applikationen), Word-Verarbeitungsapplikationen, Internetsuch-Applikationen, Navigationsapplikationen (entweder in einem Fahrzeug oder in einem in der Hand gehaltenen oder anderem mobilen Format), usw., ein. Ein Gerät wird eine Spracheingabeschnittstelle (Sprachezu-Text- oder Spracherkennungs-Maschine) als einen globalen Dienst betreiben, der eine Eingabeschnittstelle bereitstellt, z.B. ähnlich wie eine Keyboard- oder Touch-Screen-Schnittstelle, die Querbett von Applikationen verwendet werden kann. Bestimmte Applikationen (oder Gruppen davon) können eine Spracheingabefunktionalität unabhängig oder als eine Applikationshilfskomponente oder Funktion bereitstellen.
Die Druckschrift US 8,635,066 B2 beschreibt Verfahren für Kamera-unterstützte Rauschunterdrückung und Spracherkennung.
Die Druckschrift WO 2007/114346 A1 beschreibt ein Verfahren für ein Spracherkennungsgerät.
Die Druckschrift US 2011/0311144 A1 beschreibt ein Verfahren zum Vereinfachen von Spracherkennung durch die Verarbeitung von visuellen Sprachhinweisen.
Eine Spracheingabeschnittstelle kann die Spracheingabe fehlinterpretieren, zum Beispiel in dem der falsche Text für die entsprechende Spracheingabe eingegeben wird(z.B. ein Kommando, ein Mitteilungsinhalt, usw.). Ein Nutzer kann manuell den fehlinterpretierten Text ändern oder korrigieren, z.B. diesen löschen und wiedereingeben. Dies erfordert ein Auswählen des ungültigen Textes und ein erneutes Sprechen oder ein Tippen des korrekten Textes. Ein Nutzer kann auch einen Text geringen Vertrauens auswählen, z.B. können Worte oder Sätze, welche die Spracheingabeschnittstelle anzeigt, fehlinterpretiert sein, und Ersatz aus einer Dropdown-Liste auswählen.
Kurze Zusammenfassung
Zusammenfassend stellt ein Verfahren einen Aspekt zur Verfügung, umfassend: Akzeptieren einer Spracheingabe eines Nutzers an einem Audioempfänger eines Informationshandhabungsgerätes; Interpretieren der der Nutzereingabe unter Verwenden eines Prozessors; Identifizieren wenigstens einer Zweideutigkeit beim Interpretieren der Spracheingabe unter Verwenden eines Prozessors; danach Zugreifen auf eine gespeicherte nichthörbare Eingabe, die zeitlich mit der wenigstens einen Zweideutigkeit assoziiert ist; und Anpassen einer Interpretation der Spracheingabe unter Verwenden der nichthörbaren Eingabe.
Ein anderer Aspekt stellt ein Informationshandhabungsgerät bereit, umfassend: einen Audioempfänger; einen Sensor, der eine Eingabe erfasst; einen Prozessor; und einen Speicher, der Instruktionen speichert, die durch den Prozessor ausgeführt werden, um: an dem Audioempfänger eine Spracheingabe eines Nutzers zu akzeptieren; die Spracheingabe zu interpretieren; wenigstens eine Zweideutigkeit beim Interpretieren der Spracheingabe zu identifizieren; danach auf eine gespeicherte nichthörbar Eingabe zuzugreifen, die zeitlich mit wenigstens einer Zweideutigkeit assoziiert ist; und um eine Interpretation der Spracheingabe unter Verwenden einer nichthörbaren Eingabe, die von dem Sensor abgeleitet ist, anzupassen.
Ein anderer Aspekt stellt ein Produkt zur Verfügung, aufweisend: ein gerätelesbares Speichergerät, das einen darin gespeicherten gerätelesbaren Code aufweist, wobei der gerätelesbare Code durch den Prozessor ausführbar ist und umfasst: einen Code, der eine Spracheingabe eines Nutzers akzeptiert; einen Code, der die Spracheingabe interpretiert; einen Code, der wenigstens eine Zweideutigkeit beim Interpretieren der Spracheingabe identifiziert; einen Code, der danach auf eine gespeicherte nichthörbare Eingabe zugreift, die zeitlich mit der wenigstens einen Zweideutigkeit assoziiert ist; und einen Code, der eine Interpretation der Spracheingabe unter Verwenden einer nichthörbaren Eingabe anpasst.
Das Vorhergehende ist eine Zusammenfassung und kann somit Vereinfachungen, Verallgemeinerungen und Auslassungen von Details enthalten; konsequenterweise werden diejenigen, die mit der Technik vertraut sind, erkennen, dass die Zusammenfassung nur darstellend ist und sie nicht darauf abzielt, in irgendeiner Weise begrenzend zu sein.
Für ein besseres Verständnis der Ausführungsformen, zusammen mit anderen und weiteren Merkmalen und Vorteilen davon, wird auf die nachfolgende Beschreibung Bezug genommen in Zusammenhang mit den begleitenden Zeichnungen. Der Rahmen der Erfindung wird in den anhängenden Ansprüchen aufgezeigt.
Kurze Beschreibung der unterschiedlichen Ansichten der Zeichnungen

1 zeigt ein Beispiel einer Informationshandhabungs-Geräteschaltung.
2 zeigt ein anderes Beispiel eines Informationshandhabungsgerätes.
3 zeigt ein beispielhaftes Verfahren unter Verwenden einer nichthörbaren Spracheingabekorrektur.

Detaillierte Beschreibung
Es ist ohne weiteres verständlich, dass die Komponenten der Ausführungsformen, wie sie im Allgemeinen beschrieben und in den Figuren hierin gezeigt werden, in einer weiten Vielfältigkeit von unterschiedlichen Konfigurationen zusätzlich zu den beschriebenen beispielhaften Ausführungsformen angeordnet und konstruiert sein können. Somit ist die nachfolgende detaillierte Beschreibung von beispielhaften Ausführungsformen, wie sie in den Figuren repräsentiert werden, nicht geeignet, den Rahmen der Ausführungsformen wie beansprucht zu begrenzen, sondern nur beispielhafte Ausführungsformen darzustellen.
Eine Bezugnahme in dieser gesamten Spezifikation auf „eine einzelne Ausführungsform“ oder „eine Ausführungsform“ (oder ähnliches) bedeutet, dass ein bestimmtes Merkmal, eine Struktur oder ein Zeichen, das in Verbindung mit der Ausführungsform beschrieben wird, wenigstens in einer Ausführungsform enthalten ist. Somit bezieht sich das Auftreten der Phrasen „in einer einzelnen Ausführungsform“ oder „in einer Ausführungsform“ oder dergleichen an unterschiedlichen Stellen in dieser Spezifikation nicht notwendigerweise auf die gleiche Ausführungsform.
Weiterhin können die beschriebenen Merkmale, Strukturen oder Zeichen in irgendeiner geeigneten Weise in einer oder mehreren Ausführungsformen kombiniert werden. In der nachfolgenden Beschreibung wird eine Vielzahl spezieller Details bereitgestellt, um ein gründliches Verständnis der Ausführungsformen zu geben. Ein Fachmann des relevanten Standes der Technik wird jedoch erkennen, dass die unterschiedlichen Ausführungsformen ohne einen oder mehrere der spezifischen Details, oder mit oder ohne Verfahren, Komponenten, Materialien, usw., ausgeführt werden können. In anderen Beispielen werden bekannte Strukturen, Materialien oder Verfahren nicht im Detail gezeigt oder beschrieben, um Verwirrungen zu vermeiden.
Spracheingabeschnittstellen werden zunehmend populärer. Während die Genauigkeit der Sprache zu Textumwandlung verbessert wurde, und fortgesetzt verbessert wird, finden unvermeidliche Fehler bei der genauen Umwandlung der Spracheingabe in einen Maschinentext statt. Zum Beispiel verwendet eine existierende Spracherfassung Töne, um zu bestimmen, was gesagt wird. Da viele Klänge ähnlich sind, verursacht dieses eine fehlerhafte Spracherfassung. Zum Beispiel klingen die Konsonanten wie „B“, „C“, „D“, „E“, „G“, „P“, „T“, „V“, „Z“, usw., gleich oder ähnlich und kann eine audio-basierende Spracherfassung nicht immer korrekt interpretieren, was gesagt wird.
Obwohl konventionelle Mechanismen um fehlerhafte Eingabeumwandlungen zu korrigieren, existieren, z.B. diese manuell zu korrigieren oder ein „bestes Raten“ aus einem Dropdown-Menü auszuwählen, erfordert dieses jeweils ein eher aufdringliches Fixieren, das durch den Nutzer ausgeführt wird, indem er seine oder ihre Spracheingabe unterbricht und manuell in das System eingreift. Selbst wenn ein Dropdown-Menü bereitgestellt wird, erfordert dieses somit nach wie vor, dass der Nutzer jede Fehlinterpretation manuell repariert. Das Vertrauen auf ein Dropdown-Menü setzt darüber hinaus voraus, dass die Spracheingabeschnittstelle die Worte für die eine fehlerhafte Eingabe ausgeführt worden sein kann korrekt identifiziert. Das bedeutet, dass einige Worte der Texteingabe inkorrekt sein können und nichts desto weniger nicht als gering-zuverlässig durch das System identifiziert werden, oder umgekehrt. Dies vermindert die Möglichkeit eines schnellen Reparierens jeder Fehlinterpretation in einer intuitiven oder nutzerfreundlichen Weise .
Darüber hinaus setzt dies in Systemen, die kontextabhängige Daten verwenden, um beim Interpretieren von einer Spracheingabe zu assistieren, voraus, dass geeignete kontextabhängige Daten zur Verfügung stehen und benutzt werden können. Zum Beispiel verwenden viele existierende Lösungen den Kontext, um eine korrekte Sprache durch Verifizieren, dass die Worte, die anfänglich interpretiert wurden, in einer gegebenen Phrase/einem gegebenen Satz Sinn machen, zu bestimmen. Nachteile dieser Näherung schließen ein, sind aber nicht begrenzt auf, ungenaue Korrekturen, aufgrund einer riesige Anzahl von Möglichkeiten, welche in Fällen der Ungenauigkeit existieren, Ungenauigkeiten in Fällen wo ein Satz eine Vielzahl von Kontexten aufweist, die akzeptabel wären, so dass eine große kontextabhängige Datenbasis und eine große Verarbeitungsleistung erforderlich ist, um die Datenbasis schnell für jede Phrase zu prüfen, das Erfordernis einer Cloud-Verbindung (oder ähnlicher Verbindung), außer ein Hilfsmittel der kontextabhängigen Datenbasis ist lokal gespeichert, usw.
Demgemäß stellt eine erfindungsgemäße Ausführungsform Mechanismen zum Korrigieren fehlerhafter Konversionen der Sprache (auf die insgesamt als „Spracheingabe“ Bezug genommen wird) in Maschinentext bereit. Als Beispiel stellt eine erfindungsgemäße Ausführungsform ein Verfahren bereit, in dem die Spracheingabe von einem Audioempfänger, z.B. einem Mikrofon, eines Informationshandhabungsgerätes, z.B. einem Tablet-Computergerät, einem Smartphone, einem Laptop-Computergerät, einem Navigationsgerät, usw. akzeptiert wird. Die Spracheingabe kann dann unter Verwenden einer Spracherkennungsmaschine interpretiert werden, um eine anfängliche Bestimmung, welche Worte/Phrasen/Kommandos der Spracheingabe einschließt, auszuführen. Eine Ausführungsform kann als Teil der Erkennungs-/ Interpretationsverarbeitung, eine Zweideutigkeit, d.h. Mehrdeutigkeit beim Interpretieren der Spracheingabe identifizieren, z.B. ein Wort oder eine Phrase die mit Bezug auf eine korrekte Interpretation einen niedrigen Zuverlässigkeitspegel aufweist.
Demgemäß kann eine erfindungsgemäße Ausführungsform, anstelle von z.B. einem Nachsuchen nach einer Rückkopplung oder einem Gebrauchen eines Konventions-, kontextabhängigen Lösungsmechanismus (z.B. einfaches Prüfen der umgebenden Worte, usw.), danach auf eine gespeicherte nichthörbare Eingabe, die zeitlich mit der Zweideutigkeit assoziiert ist, zugreifen. Zum Beispiel kann eine erfindungsgemäße Ausführungsform einen nichthörbaren Sensor betreiben, z.B. eine Kamera, welche Bilder des Nutzers aufnimmt, während er eine Spracheingabe bereitstellt, und diese nichthörbare Eingabe zur Verwendung für ein Re-Interpretieren der Zweideutigkeit speichert. Auf diese Weise kann eine erfindungsgemäße Ausführungsform, z.B. unter Verwenden von nichthörbaren Eingaben, die beispielsweise von den Lippenbewegungen, den Bewegungen des Nutzers (z.B. dem Mund, dem Kopf, den Gesten, usw.) abgeleitet werden, eine passende Interpretation der Stimmeneingabe bestimmen, die als zweideutig identifiziert wurde.
Die dargestellten beispielhaften Ausführungsformen werden am Besten durch Bezugnahme auf die Figuren verstanden. Die nachfolgende Beschreibung ist nur als ein Beispiel beabsichtigt und illustriert einfach bestimmte beispielhafte Ausführungsformen.
Während verschiedene andere Schaltkreise, Schaltungen oder Komponenten in Informationshandhabungsgeräten in Bezug auf eine Smartphone- und/oder Tablet-Schaltung 100 verwendet werden, weist ein in 1 gezeigtes Beispiel, ein Systemon-Chip oder ein Schaltungsdesign, das zum Beispiel in Tablets oder anderen mobilen Computer-Plattformen zu finden ist, auf. Software und Prozessor(en) sind in einem einzigen Chip 110 kombiniert. Prozessoren umfassen interne arithmetische Einheiten, Register, Cache-Speicher, Busse, EIN/AUS-Ports, usw., wie sie in der Technik gut bekannt sind. Interne Busse und dergleichen hängen von unterschiedlichen Händlern ab, aber im Wesentlichen können alle peripheren Geräte (120) auf einem einzigen Chip oder in einer Schaltung 110 angebracht sein. Die Schaltung 100 kombiniert den Prozessor, die Speichersteuerung und einen EIN/AUS-Steuerknoten zusammen in einem einzigen Chip 110. Auch verwenden derartige Systeme 100 typischerweise nicht SATA- oder PCI- oder LPC-Schnittstellen. Gemeinsame Schnittstellen schließen zum Beispiel SDIO und I2C ein.
Es gibt Strommanagementchip(s) oder Schaltung(en) 130, z.B. eine Batteriemanagementeinheit, BMU, welche den Strom zum Beispiel über eine wieder aufladbare Batterie 140 liefert, die durch eine Verbindung mit einer Stromquelle (nicht gezeigt) wieder aufgeladen wird. In wenigstens einem Design wird ein einziger Chip, wie 110, verwendet, um eine BIOS-ähnliche Funktionalität und einen DRAM-Speicher bereitzustellen.
Das System 100 umfasst typischerweise ein oder mehrere eines WWAN-Transceivers 150 und eines WLAN-Transceivers 160 zum Verbinden mit verschiedenen Netzwerken, wie Telekommunikationsnetzwerke und drahtlosen Internetgeräten z.B. Zugriffspunkten. Zusätzliche Geräte 120 können eingeschlossen werden, z.B. ein Audioempfänger wie ein Mikrofon zum Empfangen von Spracheingaben an eine Spracheingabeschnittstelle, sowie andere Sensoren, z.B. ein nichthörbarer Sensor wie eine Kamera. Ein Mikrofon schließt Komponenten ein wie einen Übertrager oder Sensor, der Töne in elektrische Signale konvertiert, basierend auf elektromagnetischer Induktion, kapazitiver Änderung, piezoelektrischer Generation oder anderer Modulationen, um ein elektrisches Signal (Spannung) aus mechanischer Vibration, die durch Schall oder akustische Wellen erzeugt werden, herzustellen. Ein nichthörbarer Sensor umfasst zum Beispiel Elemente, die Daten aufnehmen, die verwendet werden können, um ein Bild abzuleiten, z.B. ein Bild, das von sichtbarem Licht oder von elektromagnetischer Strahlung, die nicht sichtbar ist, z.B. Infrarot, und/oder von nichthörbaren Schallwellen, usw. abgeleitet wird. Üblicherweise wird das System 100 einen Berührungsbildschirm 170 für die Dateneingabe und Ausgabe/Wiedergabe einschließen. Das System 100 umfasst typischerweise auch verschiedene Speichergeräte, z.B. Flash-Speicher 180 und SDRAM 190.
2 zeigt ein Blockdiagramm eines anderen Beispiels von Informationshandhabungsgeräte-Schaltkreisen, Schaltungen oder Komponenten. Das Beispiel, das in 2 gezeigt wird, kann Computersystemen, wie denen der THINKPAD-Serien der Personalcomputer, die von Lenovo (US) Inc. of Morrisville, NC, verkauft werden, oder anderen Geräten entsprechen. Wie es durch die Beschreibung hierin nahe liegend ist, können Ausführungsformen andere Merkmale oder nur einige Merkmale der Merkmale des Beispiels, das in 2 gezeigt wird, einschließen.
Das Beispiel der 2 umfasst einen sogenannten Chipsatz 210 (eine Gruppe integrierter Schaltungen oder Chips, die zusammenarbeiten, Chipsätze) mit einer Architektur, die abhängig von dem Hersteller variieren kann (zum Beispiel INTEL, AMD, ARM, usw.). INTEL ist eine registrierte Handelsmarke der Intel Corporation in den Vereinigten Staaten und anderen Ländern. AMD ist eine registrierte Handelsmarke der Advanced Micro Devices Inc. in den Vereinigten Staaten und anderen Ländern. ARM ist eine nicht registrierte Handelsmarke der ARM Holding plc in den Vereinigten Staaten und anderen Ländern. Die Architektur des Chipsatzes 210 umfasst einen Kern- und Speichersteuergruppe 220 und einen EIN/AUS-Steuerknoten 250, der Informationen (zum Beispiel Daten, Signale, Anweisungen, usw.) über eine direkte Managementschnittstelle (DMI) 242 oder ein Verbindungssteuergerät 244 austauscht. In 2 ist die DMI 242 eine Chip-zu-Chip-Schnittstelle (auf die manchmal auch als eine Verbindung zwischen einer „northbridge“ und einer „southbridge“ Bezug genommen wird). Der Kern- und Speichersteuerungsgruppe 220 umfasst einen oder mehrere Prozessoren 222 (zum Beispiel Einzel- oder Mehrkern) und einen Speichersteuerknoten 226, der Informationen über einen Front-Side-Bus (FSB) 224 austauscht; es ist anzumerken, dass die Komponenten der Gruppe 220 auf einem Chip integriert sein können, der die konventionelle „northbridge“-artige Struktur ersetzt. Ein oder mehrere Prozessoren umfassen interne arithmetische Einheiten, Register, Cache-Speicher, Busse, EIN/AUS-Ports, usw., wie sie in der Technik gut bekannt sind.
In 2 bildet der Speichersteuerknoten 226 Schnittstellen mit dem Speicher 240 (zum Beispiel um eine Unterstützung für eine Art RAM-Speicher bereitzustellen, auf den als einen „Systemspeicher“ oder „Speicher“ Bezug genommen werden kann). Der Speichersteuerknoten 226 schließt weiterhin eine LVDS-Schnittstelle 232 für ein Anzeigegerät 292 ein (zum Beispiel einen CRT, einen Flachbildschirm, einen Touchscreen, usw.). Ein Block 238 umfasst einige Technologien, die über die LVDS-Schnittstelle 232 unterstützt werden können (zum Beispiel serielle digitale Videos, HDMI/DVI, Anzeigeanschluss). Der Speichersteuerknoten 226 schließt auch eine PCI-Express-Schnittstelle (PCI-E) 234 ein, die diskrete Grafiken 236 unterstützen kann.
In 2 umfasst der EIN/AUS-Steuerknoten 250 eine SATA-Schnittstelle 251 (zum Beispiel für HDDs, SDDs, usw. 280), eine PCI-E-Schnittstelle 252 (zum Beispiel für drahtlose Verbindungen 282), eine USB-Schnittstelle 253 (zum Beispiel für Geräte 284 wie einen Digitalisierer, ein Keyboard, eine Maus, Kameras, Telefone, Mikrofone, Speicher, andere verbundene Geräte, usw.), eine Netzwerkschnittstelle 254 (zum Beispiel LAN), eine GPIO-Schnittstelle 255, eine LPC-Schnittstelle 270 (für ASICs 271, eine TPM 272, einen Super-Ein/Aus-Steuerknoten 273, einen Firmenware-Knoten 274, eine BIOS-Unterstützung 275 sowie unterschiedliche Arten von Speichern 276 wie ROM 277, Flash 278 und NVRAM 279), eine Strommanagementschnittstelle 261, eine Taktgeneratorschnittstelle 262, eine Audioschnittstelle 263 (zum Beispiel für Lautsprecher 294), eine TCO-Schnittstelle 264, eine Systemmanagementbus-Schnittstelle 265 und einen SPI-Flash 266, der eine BIOS 268 und einen Boot Code 290 beinhalten kann. Der EIN/AUS-Steuerknoten 250 kann eine Gigabit-Ethernet-Unterstützung aufweisen.
Sobald das System eingeschaltet ist, kann es konfiguriert sein, um einen Boot Code 290 für die BIOS-Schnittstelle 268 auszuführen, wie sie in dem SPI-Flash 266 gespeichert ist, und danach Daten unter der Steuerung von einem oder mehreren Betriebssystemen und Applikationssoftware (die zum Beispiel in dem Systemspeicher 240 gespeichert ist), zu verarbeiten. Ein Betriebssystem kann in irgendeiner der unterschiedlichen Stellen gespeichert sein und zum Beispiel gemäß den Instruktionen der BIOS 268 auf dieses zugegriffen werden. Wie hierin beschrieben, kann ein Gerät weniger oder mehr Merkmale, als die in dem System der 2 gezeigt werden, enthalten.
Eine Informationshandhabungs-Geräteschaltung, wie sie zum Beispiel in 1 oder 2 gezeigt wird, kann in Geräten verwendet werden, die eine Spracheingabeschnittstelle aufweisen. Zum Beispiel kann die Schaltung, die in 1 gezeigt ist, in einem Gerät wie einem Smartphone, einem Tablet, einem Navigationsgerät, einer automobilen Konsole, usw., verwendet werden, welche Spracheingaben akzeptiert und dieselben zu Sprache für ein Handhaben durch eine zugrunde liegende Applikation konvertiert (z.B. Wortverarbeitungsapplikation, Navigationsapplikation, Internetsuchapplikation, Mitteilungsapplikation, usw.). In ähnlicher Weise kann die Schaltung in 2 in einem Gerät wie einem Laptop oder einem Desktopcomputer, der Sprachkommandos oder Eingaben für verschiedene Applikationen akzeptiert, verwendet werden.
Eine Spracheingabe wird durch einen Audioempfänger eines Gerätes, wie es in 1 und/oder 2 dargestellt wird, empfangen. Zum Beispiel kann ein Nutzer ein Sprachkommando auf einem Smartphone oder Tablet-Gerät bereitstellen, welches durch ein Mikrofon des Gerätes empfangen wird. Der empfangene Ton wird verarbeitet, z.B. in ein digitales Signal konvertiert und durch die Spracheingabestelle oder eine Komponente davon analysiert, z.B. mit einer Spracherkennungsmaschine. Verschiedene Spracherkennungsmaschinen existieren. Die Spracherkennungsmaschine analysiert verschiedene Charakteristiken, die durch das Audiosignal der Spracheingabe dargestellt werden.
Zum Beispiel können Blöcke oder Segmente innerhalb des Audiosignals der Sprache syntaktisch analysiert werden, um Wortgrenzen zu identifizieren. Die Worte selbst können dann zum Identifizieren der Phoneme analysiert werden, die für bestimmte Worte kennzeichnend sind. Wörter werden üblicherweise basierend auf einer Vertrauensmatrix identifiziert, z.B. einem Vertrauen in einer Übereinstimmung mit einem bekannten Wort oder mit bekannten Wörtern basierend auf Charakteristiken innerhalb des Audiosignals. In einem Beispiel kann jede beliebige derartige Spracherkennungsmaschine verwendet werden. In dieser Beziehung können verschiedene Datenquellen, die entweder lokal gespeichert sind oder auf die entfernt zugegriffen wird, für einen Vergleich und zu Analysezwecken durch die Spracherkennungsmaschine verwendet werden.
In einigen Spracherkennungsmaschinen können, sobald die Worte selbst identifiziert sind, zumindest anfänglich, Analysen höherer Ordnung und/oder zusätzliche Übergangsanalysen zum Verbessern der Genauigkeit durchgeführt werden. Zum Beispiel kann die Grammatik und der Syntax der identifizierten Worte, und deren Anordnung, analysiert werden, um zu bestimmen, ob das (die) Wort(e), das (die) identifiziert wurde(n), sauber den Kontext, in dem es (sie) präsentiert wurde(n), wiedergibt. Darüber hinaus kann die Spracheingabe analysiert werden, um verschiedene Komponententeile zu identifizieren, die unterschiedliche, mit diesen assoziierte Funktionalitäten aufweisen, z.B. vorbestimmte Kommandos gegenüber Mitteilungsgehalt.
Wie oben erwähnt, ist eine allgemeine Konsequenz von diesem Prozess, dass ein Wort in der Verarbeitung der Spracheingabe und der Konversion davon fehlinterpretiert sein kann. In einer Mitteilungsapplikation, die eine Eingabe von einer Spracheingabeschnittstelle akzeptiert, kann ein Nutzer zum Beispiel die folgende Phrase sprechen: „Text Bob“ gefolgt von „What time is the game.“ Während die aktuell gesprochene Eingabe das Wort „time“ einschließt, kann eine Spracheingabeschnittstelle dieses Wort fehlinterpretieren und wird ein Wort, das ähnlich klingt (und deshalb ähnlich für die Spracherkennungsmaschine ist), auswählen. Zum Beispiel kann dieser Text als „What dime is the game“ interpretiert werden.
Konventionellerweise kann der Nutzer, in Gegenwart einer derartigen Interpretation, manuell zurückgehen und das Wort „dime“ korrigieren, z.B. durch Berühren des Wortes/durch auf das Wort tippen über eine Berührungseingabeschnittstelle und Eintippen des korrekte Wortes „time“, usw. In einigen Spracheingabeschnittstellen, kann die Spracherkennungsmaschine auch dem Wort „dime“ eine niedrige Vertrauensstufe zugewiesen haben, so dass der Nutzer nur noch das Wort „dime“ berühren muss und kann aus vorbestimmten Zuordnungen eine Zuordnung, die „time“ einschließt, auswählen.
In dem Kontext, in dem die Spracherkennung einem Wort ein niedriges Vertrauen zugeschrieben hat, z.B. „dime“ in dem obigen Beispiel, kann eine Ausführungsform eine nichthörbare Eingabe verwenden, um das zweideutige Wort oder die Worte zu re-interpretieren.
Beispielsweise kann, wenn ein Nutzer, der eine Worteingabe von „time“ bereitstellt, welche ein niedriges Vertrauen erzielt, wie eine Eingabe von „dime“, der Kontext (z.B. die Satzstruktur, usw.) beim Re-Interpretieren des Wortes wirklich hilfreich sein. Es gibt jedoch viele Fälle, in denen textbasierende Daten entweder nicht zur Verfügung stehen oder nicht zu gebrauchen sind. Zum Beispiel beim Betrachten der aktuellen Spracheingabe von „look at this guy“ gegenüber einer Fehlinterpretation von „look at the sky“, können kontextabhängige Daten, wie umgebende Worte der Phrase, nicht beim Bestimmen der korrekten Phrase behilflich sein.
Demgemäß verwendet eine Ausführungsform eine nichthörbare Eingabe, z.B. visuelle Hinweise, die durch eine Kamera aufgenommen werden, um zu bestimmen, ob die Bewegungen des Mundes/der Lippe des Nutzers einem Wort oder einer Phrase besser entsprechen, verglichen mit einem anderen Wort oder einer anderen Phrase. In einer Ausführungsform kann eine Standardkamera, z.B. Kamera für sichtbares Licht, verwendet werden, um nichthörbare Daten, die mit der Spracheingabe assoziiert sind, aufzunehmen, z.B. durch Erfassen der Mund/Lippenbewegungen des Nutzers als visuelle Daten, die für ein Interpretieren des Schalls, der in der Spracheingabe enthalten ist, nützlich sind, z.B. bei einem Konsonantenschall wie bei „P“ oder „T“, wobei die Lippen sich deutlich berühren oder nicht berühren.
Während Verfahren zur Erfassung der Sprache selbst über Lippen/Mundlesen existieren, wurden diese Verfahren nicht nützlich verwendet, um die Spracherkennungsmaschinen beim Re-Interpretieren von zweideutigen Spracheingaben zu verbessern. Es ist sinnvoll anzumerken, dass, während eine Kamera für sichtbares Licht als ein nichthörbarer Sensor beschrieben wurde, andere Sensoren verwendet werden können, z.B. einschließlich einer Infrarotkamera, eines Ultraschallempfängers oder eines anderen Sensors, der in der Lage ist, nützliche Informationen aufzunehmen, z.B. in Bezug auf die Oberflächenmerkmale der Nutzerstimmeneingabe, z.B. den Lippen und/oder internen Merkmalen des Nutzers, z.B. Mund-, Hals-, Muskel- oder Knochenmerkmale, um Daten, nützlicher Weise bei Zweideutigkeit der Spracheingabe, zu bestimmen.
Eine Ausführungsform kann somit derartige nichthörbare Eingaben verwenden, die mit der Nutzerspracheingabe assoziiert sind, z.B. um rechtzeitig die Spracheingabe (oder Abschnitte davon) eindeutig zu machen, z.B. durch Zuordnen der nichthörbaren Eingabe zu bekannten Merkmalen, die mit dem Schall/den Phrasen der Spracheingabe korrelieren. Dies kann generell ausgeführt oder für besondere Nutzer oder Nutzergruppen trainiert werden. Zum Beispiel können die Bewegungen der gleichen Körperteile dem Schall entsprechen, der in der Vergangenheit erzeugt wurde, um die Spracherkennung zu unterstützen und eine Verbesserung des Re-Interpretierens von Spracheingaben über die Zeit bereitzustellen.
Das Aufnehmen und/oder Verarbeiten der nichthörbaren Eingaben kann entsprechend einer Strategie ausgeführt sein, z.B. um ein Energiesparen und/oder andere kontextabhängige Parameter zu berücksichtigen. Wenn zum Beispiel der Leistungs- oder Batteriegebrauch eines besonderen Gerätes ein Problem ist, kann eine regelmäßige Spracherkennung in bestimmten Szenarien durch nichthörbare Unterstützung der Spracherkennung, wie ein Verwenden von Kameraeingaben, unterstützt werden, z.B. gemäß einer vorher bestimmten Strategie.
Die Strategie kann zum Beispiel ein Verwenden nichthörbarer Eingaben einschließen, wenn das Vertrauen auf die Sprache niedrig ist (entweder gegenwärtig oder historisch, z.B. während einer bestimmten Sitzung oder für einen bestimmten Nutzer oder von Nutzern). Das Vertrauen in ein bestimmtes Wort kann als niedrig vorbestimmt sein, einschließlich einer vorbestimmten Schallcharakteristik, die mit der Zweideutigkeit z.B. mit bestimmten Konsonantenlauten assoziiert ist. Somit kann zum Beispiel die Strategie kontinuierlich nichthörbare Eingaben aufnehmen, aber diese nur verarbeiten, wenn bestimmte Laute enthalten sind.
Die Strategie kann zum Beispiel ein Verwenden von nichthörbaren Eingaben einschließen, wenn mehrfache Sprachkandidaten existieren, welche einen bestimmten vorbestimmten Vertrauensschwellwert (der Erfassung) überschreiten und/oder einen ähnlich hohen Vertrauenspegel (der Erfassung) aufweisen. Die Strategie kann zum Beispiel ein Verwenden von nichthörbaren Eingaben einschließen, wenn Hintergrundgeräusche einen Schwellwert überschreiten, wenn gleichzeitig von jemand anderem als dem primären Nutzer erfasste Sprache existiert, wenn ein Nutzer eine Phrase wiederholt oder eine Korrektur macht (z.B. kann die nichthörbare Eingabe, wie die, die durch eine Kamera aufgenommen wird, für die Interpretation der zweiten Eingabe, aber nicht für die erste Eingabe verwendet werden, usw.), usw. Die Strategie kann zum Beispiel ein Verwenden von nichthörbaren Eingaben einschließen, wenn die Nutzersprache nicht typisch ist (z.B. basierend auf dem Zeitpunkt der Eingabe, z.B. früh am Morgen gegenüber später am Abend, basierend auf einer Kondition des Nutzes, z.B. essend, flach liegend (z.B. was durch ein Gyroskope erfasst wird), krank (die Stimme ist untypisch), usw.). Die Strategie kann zum Beispiel ein Verwenden von nichthörbaren Eingaben basierend auf einer Geräteverwendungshistorie einschließen, z.B. eine Eingabe, die das erste Mal von einem Gerät erfasst wird, basierend auf einer Bedingung des Gerätes, z.B. Gerätebewegung oder Umgebung, usw. Somit kann eine Strategie derart aufgestellt werden, dass der nichthörbare Sensor und Eingaben davon entweder nicht kontinuierlich aufgenommen werden und/oder nicht kontinuierlich verarbeitet werden.
Eine Ausführungsform kann deshalb eine nichthörbare Eingabe von einem Nutzer in einer intelligenten Art verwenden, um zweideutige Sprache zu re-interpretieren. Bezug nehmend auf 3 stellt beispielsweise ein Nutzer eine Spracheingabe anfänglich bei 301 bereit und empfängt eine Ausführungsform, z.B. gemäß einer vorgeschriebenen Strategie, auch eine nichthörbare Eingabe des Nutzers, wie Bilder, die durch eine Kamera empfangen werden. Eine Ausführungsform kann eine Spracherkennungsmaschine beim Interpretieren der Spracheingabe bei 302 verwenden. Als ein Teil dieses Prozesses kann eine Ausführungsform bestimmten, dass bestimmte Worte mit einem niedrigeren Vertrauenspegel in Bezug auf einen vorbestimmten Schwellwert eingestuft werden.
Eine Ausführungsform kann deshalb bei 303 wenigstens eine Zweideutigkeit im Interpretieren der Spracheingabe identifizieren, z.B. dass diese Worte eine niedrigere Vertrauensstufe aufweisen. Wenn keine Zweideutigkeit festgestellt wird, kann eine Ausführungsform die Eingabe als sauber interpretiert festlegen. Wenn jedoch eine Zweideutigkeit vorliegt, selbst wenn sie gering ist, z.B. gemäß einem Schwellwert, kann eine Ausführungsform danach auf eine gespeicherte nichthörbare Eingabe, die zeitlich mit wenigstens einer Zweideutigkeit assoziiert ist, bei 304 zugreifen (welche z.B. während der Spracheingabe bei 301 aufgenommen wurde). Wiederum kann eine Ausführungsform auf Basis eines bestimmten Triggers bei 303 bestimmen, dass eine Zweideutigkeit existiert, einschließlich von anderen Triggern als niedrige Vertrauensstufenwerte, z.B. Worte oder Wortlaute, die in der Spracheingabe erfasst sind, welche, obwohl vertrauenswürdig eingestuft, mit einer Zweideutigkeit assoziiert sind, z.B. bestimmte Konsonantenlaute, bestimmte Worte, Spracheingaben, die unter bestimmten Bedingungen empfangen werden, usw.
Unter Verwenden der nichthörbaren Eingaben, wie Lippen- oder Mundbewegungscharakteristiken, usw., kann eine Ausführungsform bei 305 wenigstens eine Zweideutigkeit unter Verwenden der nichthörbaren Eingabe re-interpretieren. Zum Beispiel kann dies ein Zuordnen nichthörbarer Eingabemerkmale für Merkmale, die mit vorbestimmten Spracheingaben oder Abschnitten davon assoziiert sind, wie bekannten Lippenbewegungen, die mit bekannten Lauten assoziiert sind, usw., einschließen. Auf diese Weise kann eine Ausführungsform zusätzliche Daten, die in der nichthörbaren Eingabe verfügbar sind, verwenden, um bei der Interpretation von verschiedenen Worten oder Phrasen zu helfen. Dies ermöglicht einer Ausführungsform die Spracheingaben genauer zu interpretieren. Zusätzlich ermöglicht eine Ausführungsform einen niedrigeren Schwellwert als gewöhnlich für die Interpretation zu verwenden, so dass die Worte, die normalerweise als „vertrauenswürdig“ interpretiert werden können, über eine Re-Interpretation unter Verwenden der nichthörbaren Eingaben bestätigt werden können. Dies kann beim Vermeiden von Situationen helfen, in denen bestimmte Worte oder Phrasen fehlinterpretiert werden, selbst wenn sie mit Bezug auf traditionelle Vertrauensstufen hoch eingestuft sind. Das Re-Interpretieren bei 304 kann auch ein Korrigieren der Spracheingabe einschließen, z.B. ein Ändern einer anfänglichen Interpretation der Spracheingabe unter Verwenden der nichthörbaren Eingabe.
Wie es ein Fachmann der Technik zu schätzen weiß, können unterschiedliche Aspekte in einem System, einem Verfahren oder einem Geräteprogrammprodukt enthalten sein. Demgemäß können Aspekte die Form einer gesamten Hardwareausführungsform oder eine Ausführungsform, die Software einschließt, einnehmen, auf die hier allgemein als „Schaltkreis“, „Modul“ oder „System“ Bezug genommen wird. Weiterhin können Aspekte die Form eines Geräteprogrammprodukts einnehmen, welche in einem oder mehreren gerätelesbaren Medien enthalten sind, die gerätelesbare Programmcodes, die hierin enthalten sind aufweisen.
Irgendwelche Kombinationen von einem oder mehreren der nicht-signal-gerätelesbaren Medien können verwendet werden. Ein Speichermedium kann zum Beispiel ein elektronisches, magnetisches, optisches oder elektromagnetisches, infrarotes oder Halbleiter-System, eine Vorrichtung oder irgendeine geeignete Kombination der Vorhergehenden sein. Größere spezifizierte Beispiele für ein Speichermedium umfassen die Folgenden: eine tragbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM, random access memory), einen Nur-Lese-Speicher (ROM, read-only memory), einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM, erasable pragrammable read-only memory, oder Flash-Speicher), eine optische Faser, eine tragbare Festplatte mit Nur-Lese-Speicher (CD-ROM, compact disc read-only memory), ein optisches Speichergerät, ein magnetisches Speichergerät oder irgendeine geeignete Kombination der vorhergehenden. Im Kontext mit diesem Dokument ist ein Speichermedium nicht ein Signal, und ein „nicht transitorisches“ umfasst alle Medien außer Signalmedien.
Ein Programmcode, der ein Speichermedium einschließt, kann unter Verwenden eines geeigneten Mediums übertragen werden, welches einschließt aber nicht begrenzt ist auf drahtlos, drahtgebunden, optische Faserkabel, RF, usw., oder irgendeine geeignete Kombination von den Vorhergehenden.
Ein Programmcode kann Operationen ausführen, die in irgendeiner Kombination einer oder mehreren Programmsprachen geschrieben sind. Der Programmcode kann vollständig auf einem einzigen Gerät, teilweise auf einem einzigen Gerät als alleinstehendes Softwarepaket, teilweise auf einem einzigen Gerät und teilweise auf einem anderen Gerät, oder vollständig auf einem anderen Gerät durchgeführt werden. In einigen Fällen können die Geräte durch irgendeine Verbindung oder ein Netzwerk verbunden sein, einschließlich eines lokalen Netzwerks (LAN) oder eines Weitverkehrsnetzes (WAN) oder die Verbindung kann durch andere Geräte (zum Beispiel durch das Internet unter Verwenden eines Internet Service Providers) durch drahtlose Verbindung, z.B. Nahfeldkommunikation oder durch eine feste Drahtverbindung, wie über eine USB-Verbindung, verbunden sein.
Hierin werden beispielhafte Ausführungsformen mit Bezug auf die Figuren beschrieben, welche beispielsweise, Verfahren, Geräte und Programmprodukte gemäß unterschiedlicher beispielhafter Ausführungsformen darstellen. Es ist verständlich, dass die Aktionen und die Funktionalität wenigstens zum Teil durch Programmbefehle durchgeführt werden können. Diese Programmbefehle können durch einen Prozessor eines Informationshandhabungsgerätes für allgemeine Zwecke, eines Informationshandhabungsgerätes für spezielle Zwecke oder durch anderer programmierbare Datenverarbeitungsgeräte zum Erzeugen einer Maschine bereitgestellt werden, so dass die Instruktionen, welche über einen Prozessor des Gerätes ausgeführt werden, die spezifizierten Funktionen/Aktionen des eingesetzten Gerätes durchführen.
Es ist sinnvoll anzumerken, dass, während bestimmte Blöcke in den Figuren verwendet werden und eine bestimmte Anordnung der Blöcke dargestellt wird, dieses keine begrenzenden Beispiele sind. In bestimmten Kontexten können zwei oder mehr Blöcke kombiniert werden, ein Block kann in zwei oder mehr Blöcke aufgeteilt werden oder bestimmte Blöcke können neu geordnet oder neu geeignet organisiert werden, da die ausdrücklich dargestellten Beispiele nur für beschreibende Zwecke verwendet werden und nicht als begrenzend auszulegen sind.
Wie hierin verwendet, kann die Einzahl „ein“ und „eine“ ausgelegt werden, als wenn es eine Mehrzahl wie „eines oder mehrere“ einschließen würde, außer es ist in anderer Weise klar dargestellt.
Diese Offenbarung wurde zu Zwecken der Darstellung und Beschreibung vorgestellt, aber es ist nicht beabsichtigt, dass dieses erschöpfend oder begrenzend sein soll. Viele Modifikationen und Variationen werden für den Fachmann in der Technik naheliegend sein. Die beispielhaften Ausführungsformen sind ausgewählt und beschrieben, um die Prinzipien und die praktische Anwendung zu beschreiben, und um andere mit fachmännischem Wissen des Standes der Technik in die Lage zu versetzen, die Offenbarung der unterschiedlichen Ausführungsformen mit unterschiedlichen Modifikationen zu verstehen, wie sie für den besonders betrachteten Gebrauch geeignet sind.
Somit ist verständlich, dass diese Beschreibung, obgleich dargestellte beispielhafte Ausführungsformen hierin mit Referenz zu den begleitenden Zeichnungen beschrieben wurden, nicht-begrenzend ist und dass unterschiedliche andere Änderungen und Modifikationen dieser durch einen Fachmann der Technik eingesetzt werden können, ohne von dem Schutzumfang und dem Geist der Offenbarung abzuweichen.

Claims

Verfahren, umfassend: - Akzeptieren einer Spracheingabe eines Nutzers an einem Audioempfänger eines Informationshandhabungsgeräts; - Aufnehmen einer nichthörbaren Eingabe, die zeitlich mit wenigstens einer Mehrdeutigkeit assoziiert ist, unter Verwenden eines Sensors; - Interpretieren der Spracheingabe unter Verwenden eines Prozessors; - Identifizieren wenigstens einer Mehrdeutigkeit beim Interpretieren der Spracheingabe unter Verwenden eines Prozessors; - danach Zugreifen auf eine gespeicherte nichthörbare Eingabe, die zeitlich mit der wenigstens einen Mehrdeutigkeit assoziiert ist; und - Anpassen einer Interpretation der Spracheingabe unter Verwenden der gespeicherten nichthörbaren Eingabe; - wobei das Aufnehmen der nichthörbaren Eingabe gemäß einer Strategie fortgesetzt wird; und - wobei die Strategie das Aufnehmen in Reaktion auf ein Erfassen eines Faktors erlaubt, der aus der Gruppe ausgewählt wird, bestehend aus: Historie eines geringen Spracherkennungsvertrauens, Erfassen von mehreren Sprachkandidaten, Erfassen von Hintergrundrauschen, das einen vorbestimmten Schwellenwert überschreitet, Erfassen eines wiederholten Wortes und Erfassen einer untypischen Sprachcharakteristik.
Verfahren nach Anspruch 1, wobei die Strategie das Anpassen ein Korrigieren der Spracheingabe umfasst.
Verfahren nach Anspruch 1, wobei der Sensor eine Kamera ist.
Verfahren nach Anspruch 1, wobei die Strategie das Aufnehmen in Reaktion auf einen Batteriepegel, der unter einen vorbestimmten Schwellenwert fällt, anpasst.
Verfahren nach Anspruch 1, wobei das Zugreifen auf eine gespeicherte nichthörbare Eingabe, die zeitlich mit wenigstens einer Mehrdeutigkeit assoziiert ist, ein Zugreifen auf eine nichthörbare Eingabe umfasst, die von Daten abgeleitet wird, welche aus der Gruppe ausgewählt werden, bestehend aus: Bilddaten von sichtbarem Licht, Bilddaten von nichtsichtbarer elektromagnetischer Strahlung und nichthörbaren Schalldaten.
Verfahren nach Anspruch 1, wobei das Identifizieren der wenigstens einen Mehrdeutigkeit bei der Interpretation der Spracheingabe unter Verwenden eines Prozessors ein Identifizieren eines Wortes umfasst, einschließlich einer vorbestimmten Schallcharakteristik, welche mit der Mehrdeutigkeit assoziiert ist.
Verfahren nach Anspruch 6, wobei die vorbestimmte Schallcharakteristik, die mit der Mehrdeutigkeit assoziiert ist, ein Konsonantenklang ist.
Informationshandhabungsgerät, umfassend: - einen Audioempfänger; einen Sensor, der Eingaben aufnimmt; - einen Prozessor; und - einen Speicher, der Instruktionen speichert, die durch den Prozessor ausgeführt werden, um: - eine Spracheingabe eines Nutzers in den Audioempfänger zu akzeptieren; - eine nichthörbare Eingabe, die zeitlich mit wenigstens einer Mehrdeutigkeit assoziiert ist, unter Verwenden des Sensors aufzunehmen; - die Spracheingabe zu interpretieren; - wenigstens eine Mehrdeutigkeit beim Interpretieren der Spracheingabe zu identifizieren; - danach auf eine gespeicherte nichthörbare Eingabe, die zeitlich mit der wenigstens einen Mehrdeutigkeit assoziiert ist, zuzugreifen; und - eine Interpretation der Spracheingabe unter Verwenden der gespeicherten nichthörbaren Eingabe, die von dem Sensor abgeleitet wird, anzupassen; - wobei das Aufnehmen der nichthörbaren Eingabe gemäß einer Strategie fortgesetzt wird; und - wobei die Strategie das Aufnehmen in Reaktion auf ein Erfassen eines Faktors erlaubt, der aus der Gruppe ausgewählt wird, bestehend aus: Historie eines geringen Spracherkennungsvertrauens, Erfassen von mehreren Sprachkandidaten, Erfassen von Hintergrundrauschen, das einen vorbestimmten Schwellenwert überschreitet, Erfassen eines wiederholten Wortes und Erfassen einer untypischen Sprachcharakteristik.
Informationshandhabungsgerät nach Anspruch 8, wobei das Anpassen ein Korrigieren der Spracheingabe umfasst.
Informationshandhabungsgerät nach Anspruch 8, wobei der Sensor eine Kamera ist.
Informationshandhabungsgerät nach Anspruch 8, wobei die Strategie das Aufnehmen in Reaktion auf einen Batteriepegel, der unter einen vorbestimmten Schwellwert fällt, anpasst.
Informationshandhabungsgerät nach Anspruch 8, wobei ein Zugreifen auf eine nichthörbare Eingabe, die zeitlich mit wenigstens einer Mehrdeutigkeit assoziiert ist, ein Zugreifen auf eine nichthörbare Eingabe umfasst, die von Daten abgeleitet ist, welche aus der Gruppe ausgewählt wird, bestehend aus: Bilddaten von sichtbarem Licht, Bilddaten von nicht-sichtbarer elektromagnetischer Strahlung und Bilddaten aus nichthörbarem Schall.
Informationshandhabungsgerät nach Anspruch 8, wobei das Identifizieren wenigstens einer Mehrdeutigkeit beim Interpretieren der Spracheingabe unter Verwenden eines Prozessors, ein Identifizieren eines Wortes umfasst, einschließlich einer vorbestimmten Schallcharakteristik, die mit der Mehrdeutigkeit assoziiert ist.
Produkt, umfassend: - ein gerätelesbares Speichergerät, das einen gerätelesbaren Code aufweist, der darin gespeichert ist, wobei der gerätelesbare Code durch einen Prozessor ausführbar ist und umfasst: - einen Code, der eine Spracheingabe eines Nutzers akzeptiert; - einen Code, der eine nichthörbare Eingabe, die zeitlich mit wenigstens einer Mehrdeutigkeit assoziiert ist, unter Verwenden eines Sensors aufnimmt; - einen Code, der die Spracheingabe interpretiert; - einen Code, der wenigstens eine Mehrdeutigkeit beim Interpretieren - der Spracheingabe identifiziert; - einen Code, der danach auf eine gespeicherte nichthörbare Eingabe zugreift, die zeitlich mit der wenigstens einen Mehrdeutigkeit assoziiert ist; und - einen Code, der eine Interpretation der Spracheingabe unter Verwenden der gespeicherten nichthörbaren Eingabe anpasst; - wobei das Aufnehmen der nichthörbaren Eingabe gemäß einer Strategie fortgesetzt wird; und - wobei die Strategie das Aufnehmen in Reaktion auf ein Erfassen eines Faktors erlaubt, der aus der Gruppe ausgewählt wird, bestehend aus: Historie eines geringen Spracherkennungsvertrauens, Erfassen von mehreren Sprachkandidaten, Erfassen von Hintergrundrauschen, das einen vorbestimmten Schwellwert überschreitet, Erfassen eines wiederholten Wortes und Erfassen einer untypischen Sprachcharakteristik.