DE112009001779B4 - Spracherkennungsvorrichtung - Google Patents

Spracherkennungsvorrichtung Download PDF

Info

Publication number
DE112009001779B4
DE112009001779B4 DE112009001779.7T DE112009001779T DE112009001779B4 DE 112009001779 B4 DE112009001779 B4 DE 112009001779B4 DE 112009001779 T DE112009001779 T DE 112009001779T DE 112009001779 B4 DE112009001779 B4 DE 112009001779B4
Authority
DE
Germany
Prior art keywords
key
unit
voice
candidate
screen
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE112009001779.7T
Other languages
English (en)
Other versions
DE112009001779T5 (de
Inventor
Yuzuru Inoue
Takayoshi Chikuri
Yuki Furumoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112009001779T5 publication Critical patent/DE112009001779T5/de
Application granted granted Critical
Publication of DE112009001779B4 publication Critical patent/DE112009001779B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

Spracherkennungsvorrichtung, umfassend:eine Spracheingabeeinheit (11) zum Eingeben einer Sprache eines geäußerten Tastennamens, um die Sprache in ein elektrisches Signal zu wandeln;eine Spracherkennungsverarbeitungseinheit (12) zum Durchführen eines Spracherkennungsprozesses anhand eines daran gesendeten Tonsignals als das elektrische Signal aus der Spracheingabeeinheit (11), um ein Spracherkennungsergebnis zu erfassen;eine Tastenkandidaten-Detektionseinheit (13) zum Vergleichen des durch die Spracherkennungsverarbeitungseinheit (12) erfassten Spracherkennungsergebnisses mit vorab für alle, auf allen Anzeigebildschirmen existierenden Tasten vorbereiteten Tastennamen, um so als einen Tastenkandidaten eine Taste mit einem Tastennamen zu detektieren, der partiell zu dem Spracherkennungsergebnis passt;eine Anzeigensteuereinheit (15) zum Erzeugen, wenn eine Mehrzahl von Kandidatentasten, die partiell mit dem Spracherkennungsergebnis übereinstimmen, durch die Tastenkandidaten-Detektionseinheit (13) detektiert werden, eines Bildschirms, der einen Zustand zeigt, in dem zumindest einer der Mehrzahl von Tastenkandidaten ausgewählt ist; undeine Anzeigeneinheit (16) zum Anzeigen des durch die Anzeigensteuereinheit (15) erzeugten Bildschirms.

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung beizieht sich auf eine Spracherkennungsvorrichtung, die eine Ausrüstung betreibt, wie etwa eine Navigationsvorrichtung, per Sprache, beispielsweise genauer gesagt bezieht sie sich auf eine Technologie des Ausführens, wenn eine Sprachbedienung durchgeführt wird, desselben Prozesses wie desjenigen, wenn eine manuelle Bedienung durchgeführt wird.
  • Hintergrund der Erfindung
  • In einem Fall des Bedienens von Ausrüstung durch eine Anwenderstimme können die Details der Bedienung nicht eindeutig bestimmt werden, falls die Anwenderäußerung vage ist. Um dieses Problem zu lösen, wird in konventioneller Weise typischerweise ein Verfahren verwendet, das dem Anwender gestattet, einen korrekten Kandidaten aus Kandidaten auszuwählen, welche durch die Ausrüstung als Ergebnis einer Spracherkennung bereitgestellt werden. Ein Problem bei diesem Verfahren ist jedoch, dass, weil das Verfahren einen Übergang zu einem Bildschirm verursacht, der für Sprachbedienung spezifisch ist und der bei manueller Bedienung nicht existiert, es für den Anwender schwierig ist, die Prozedur zur Auswahl eines korrekten Kandidaten aus den Kandidaten zu verstehen.
  • Um das aus solch einer Vagueheit der Anwenderäußerung resultierende Problem zu lösen, offenbart Patentreferenz 1 eine Informationseingabe-/Ausgabevorrichtung, die den Anwender in die Lage versetzt, Interpretationsergebnisse per Sprache zu korrigieren, und auch einen Kandidaten für die Interpretationsergebnisse per Sprache zu selektieren. In dieser Informationseingabe-/Ausgabevorrichtung erzeugt eine Eingabe-Interpretationskandidaten-Zwischenausgabeeinheit zeitweilige Präsentationsinformationen, die den Anwender veranlasst, einen Kandidaten aus Interpretationskandidaten auszuwählen, welche die Eingabe-Interpretationskandidaten-Zwischenausgabeeinheit aus einer Eingabeeinheit erfasst hat. Eine Timereinheit startet einen Zeitmessvorgang in Reaktion auf Ausgabe der zeitweiligen Präsentationsinformation und erzeugt ein Zeitsignal, nachdem ein vorbestimmtes Zeitinterval verstrichen ist. Wenn Sprachinformationen zur Auswahl eines Kandidaten aus einer Spracherkennungsvorrichtung eingegeben werden, oder wenn das Timersignal aus der Timereinheit abgegeben wird, wählt eine Interpretationsinformationsauswahl/Bestimmungseinheit einen Kandidaten aus den Interpretationskandidaten aus und stellt den ausgewählten Kandidaten einer Informationsverarbeitungseinheit als Interpretationsinformationen bereit. Eine Ausgabe-Vereinheitlichungseinheit vereinigt aus der Informationsverarbeitungseinheit ausgegebene Informationen und zeitweilige Präsentationsinformationen aus der Eingabe-Interpretationskandidateneinstell-Zwischenausgabeeinheit in Informationen, und stellt diese Informationen einer Ausgabeeinheit als Ausgabeinformation für den Anwender bereit.
  • Verwandtes Dokument des Stands der Technik
  • Patentreferenz
  • Patentreferenz 1: JP H10 - 91 309 A
    • Ferner offenbart US 2005 / 0 055 218 A1 ein Spracherkennungssystem und -verfahren in einem sprachaktivierten multifunktionalen Kommunikationssystem.
    • EP 1 863 015 A1 lehrt eine elektronische Vorrichtung zur Spracherkennung extern eingegebener Sprachinformationen und wird gesteuert durch aus der Spracherkennung erhaltenen Befehlsinformationen.
    • US 2006 / 0 111 906 A1 beschreibt ein Verfahren, System und eine Vorrichtung, um sogenannte „Voice Clicks“ in multimodalen Seiten zu ermöglichen.
    • US 7 076 425 B2 zeigt ferner eine Spracherkennungsvorrichtung, um eine Spracherkennungsrate eingegebener Sprache zu verbessern.
    • US 2007 / 0 100 636 A1 beschreibt eine Spracherkennungsvorrichtung, die eine effiziente multimodale Eingabe ermöglicht, durch Einstellen einer Vielzahl von Eingaben durch eine Sprachausgabe.
    • US 2003 / 0 061 053 A1 offenbart ein Verfahren und eine Vorrichtung zur Verarbeitung von Eingaben in einem Computer.
    • US 2003 / 0 158 736 A1 lehrt eine stimmkontrollierte Dateneingabe.
    • Aus JP 2006 - 208 461 A ist ein Verfahren und eine Vorrichtung zur Spracherkennung bekannt zur Verbesserung der Spracherkennung durch das Speichern von Spracherkennungs-Auswahlkandidaten.
    • US 2004 / 0 122 673 A1 beschreibt außerdem ein Verfahren und eine Vorrichtung zum schnellen und präzisen Durchführen eines Dialogaustauschs.
    • US 7 069 220 B2 zeigt schließlich ein System und Verfahren zum Bestimmen und Aufrechterhalten eines Dialogfokus in einem konventionellen Sprachsystem.
  • Ein Problem bei der durch die oben erwähnte Patentreferenz 1 offenbarten Technologie ist jedoch, dass, da der Anwender den korrekten Sprachbefehl nicht begreift und die Anwenderäußerung aus diesem Grunde vage ist, es für den Anwender schwierig ist, diese Äußerung durch Sprache zu korrigieren.
  • Die vorliegende Erfindung wird gemacht, um das oben erwähnte Problem zu lösen und es ist daher eine Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung bereitzustellen, die sowohl eine manuelle Bedienung als auch eine Sprachbedienung gemäß einer identischen Prozedur durchführen kann.
  • Zusammenfassung der Erfindung
  • Um das oben erwähnte Problem zu lösen, beinhaltet eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung alle Merkmale des unabhängigen Patentanspruchs 1. Weitere vorteilhafte Ausführungsformen ergeben sich aus den entsprechenden Unteransprüchen.
  • Die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung kann eine Sprachbedienung anhand derselben Prozedur wie derjenigen, anhand welcher die Spracherkennungsvorrichtung eine manuelle Bedienung durchführt, ausführen, selbst falls die Anwenderäußerung vage ist.
  • Figurenliste
    • 1 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt;
    • 2 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt, wobei auf einen Sprachbedienungsprozess fokussiert wird, bis einschließlich einer Präsentation eines Erkennungsergebnisses einem Anwender, nach Erkennen der Anwendersprache;
    • 3 ist eine Ansicht zum Erläutern eines Betriebs, wenn ein einzelner Tastenkandidat durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung detektiert wird;
    • 4 ist eine Ansicht zum Erläutern eines Betriebs, wenn eine Mehrzahl von Tastenkandidaten durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung detektiert wird;
    • 5 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt, wobei auf den Sprachbedienungsprozess fokussiert wird, einschließlich von einer Additionsoperation bis zum Abschluss der Operation zu der Zeit, wenn die Operation noch nicht abgeschlossen worden ist;
    • 6 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt, wobei auf den Sprachbedienungsprozess einschließlich Abschluss der Operation in Reaktion auf eine Anwendungsäußerung eines anderen Wortes als Tastennamen zum Zeitpunkt, wenn die Operation noch nicht abgeschlossen worden ist, fokussiert wird;
    • 7 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt;
    • 8 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt, wobei auf einen Sprachbedienungsprozess bis einschließlich einer Präsentation eines Erkennungsergebnisses einem Anwender nach Erkennen der Anwendersprache fokussiert wird.
  • Ausführungsformen der Erfindung
  • Nachfolgend werden, um diese Erfindung detaillierter zu erläutern, die bevorzugten Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
  • Ausführungsform 1.
  • 1 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt. Diese Spracherkennungsvorrichtung ist mit einer Spracheingabeeinheit 11, einer Spracherkennungsverarbeitungseinheit 12, einer Tastenkandidaten-Detektionseinheit 13, einer manuellen Bedieneinheit 14, einer Anzeigensteuereinheit 15, einer Anzeigeeinheit 16, einer Verschiedene-Funktions-Ausführungs-Einheit 17, einer Antwortspracherzeugungseinheit 18 und einer Sprachausgabeeinheit 19 versehen.
  • Die Spracheingabeeinheit 11 besteht beispielsweise aus einem Mikrofon und wandelt eine Sprache, die der Anwender geäußert hat, in ein elektrisches Signal um und sendet dieses elektrische Signal als ein Tonsignal an die Spracherkennungsverarbeitungseinheit 12.
  • Die Spracherkennungsverarbeitungseinheit 12 führt einen Spracherkennungsprozess anhand des daran aus der Spracheingabeeinheit 11 gesendeten Tonsignals durch. Der Spracherkennungsprozess beinhaltet einen Sprachintervall-Detektionsprozess zum Detektieren eines Äußerungsintervalls (oder Abschnitts) aus dem eingegebenen Tonsignal, einen Akustikanalyseprozess zum Umwandeln eines durch den Sprachintervall-Detektionsprozess detektierten Sprachsignals in Tonparameter, einen Wahrscheinlichkeits-Arithmetikprozess zum Selektieren und identifizieren eines Phonem-Kandidaten mit maximaler Wahrscheinlichkeit auf Basis von Minimaleinheiten der durch den Akustikanalyseprozess erfassten Sprache, und einen Vergleichsprozess zum Vergleichen des durch den Wahrscheinlichkeits-Arithmetikprozess erfassten Phonem-Kandidaten mit einem Wörterbuch, in dem Wörter und so weiter gespeichert sind, um so ein Erkennungsergebnis zu bestimmen.
  • Im Akustikanalyseprozess wird, indem beispielsweise LPC (Linearer Vorhersage-Koeffizient, Linear Predictor Coefficient) Mel-Cepstrum oder MFCC (Mel-Frequenz-Cepstru-Koeffizient) verwendet wird, das eingegebene Tonsignal in eine Merkmalsdetektorsequenz umgewandelt und die Form (Spektrumsumschlag) des Sprachspektrums abgeschätzt. Im Wahrscheinlichkeits-Arithmetikprozess wird beispielsweise durch Verwendung von HMM (Hidden Markov Model) das Tonsignal in Phonem-Symbole unterteilt, unter Verwendung der durch den akustischen Analyseprozess anhand der eingegebenen Sprache extrahierten Tonparameter, und wird ein Phonem-Kandidat mit maximaler Wahrscheinlichkeit aus dem Vergleich mit einem Standard-Phonem-Modell, das vorab verwaltet wird, ausgewählt. Im Vergleichsprozess wird ein Wort mit einer hohen Wahrscheinlichkeit durch Vergleichen des Phonem-Kandidaten mit dem Wörterbuch ausgewählt. Das durch die Spracherkennungsverarbeitungseinheit 12 durch die oben erwähnten Prozesse erfasste Erkennungsergebnis wird an die Tastenkandidaten-Detektionseinheit 13 und die Anzeigensteuereinheit 15 gesendet.
  • Die Tastenkandidaten-Detektionseinheit 13 vergleicht das durch die Spracherkennungsverarbeitungseinheit 12 erfasste Erkennungsergebnis mit den Namen (die ab jetzt als „Tastennamen“ bezeichnet werden) aller aus der Anzeigensteuereinheit 15 erfassten Tasten, d.h. die Tastennamen aller Tasten, die auf allen Bildschirmen existieren, die aktuell in dieser Spracherkennungsvorrichtung vorbereitet sind, um so als einen Tastenkandidaten eine Taste mit einem Tastennamen zu identifizieren, der partiell zum Erkennungsergebnis passt. Wenn das Erkennungsresultat beispielsweise „YYY“ ist und als die Tastennamen „XXXXXX“, YYYABC“, „YYYDEF“, und „ZZZZZZ“ vorbereitet sind, werden zwei Tasten mit den Tastennamen „YYYABC“ und „YYYDEF“, die teilweise zu „YYY“ passen, als Tastenkandidaten detektiert. In einem Fall, in dem eine vage Sprachbedienung durchgeführt wird, kann das Erkennungsergebnis der Sprachbedienung teilweise zu einem oder mehreren Tastennamen passen.
  • In einem Fall, bei dem eine exakte Sprachbedienung ausgeführt wird, kann das Erkennungsergebnis der Sprachbedienung vollständig zu einem Tastennamen passen. In diesem Fall benachrichtigt die Tastenkandidaten-Detektionseinheit 13 die Anzeigensteuereinheit 15 und die verschiedenen Funktionsausführungseinheiten 17, dass das Erkennungsergebnis voll zu einem Tastennamen passt (in 1 wird eine Route, über welche die Benachrichtigung durchgeführt wird, weggelassen. In diesem Fall wird dieselbe Bedienung wie diejenige, die gemacht wird, wenn eine entsprechende Taste über die manuelle Bedieneinheit 14 heruntergedrückt wird, ausgeführt. Informationen, die einen oder mehrere durch diese Tastenkandidaten-Detektionseinheit 13 detektierte Tastenkandidaten zeigt, werden an die Anzeigensteuereinheit 15, die Verschiedene-Funktionenausführungseinheit 17 und Antwort-Spracherzeugungseinheit 18 als Tastenkandidaten gesendet.
  • Die manuelle Bedieneinheit 14 wird verwendet, damit der Anwender beispielsweise eine auf dem Bildschirm der Anzeigeeinheit 16 angezeigte Taste herunterdrückt. Diese manuelle Bedieneinheit 14 kann aus auf einem Frontpaneel der Spracherkennungsvorrichtung angeordnete Bedientasten, einer Fernsteuerungsvorrichtung (Fernsteuerung) zum Erzeugen eines Signals, welches dasselbe ist wie dasjenige, das erzeugt wird, wenn eine dieser Bedientasten heruntergedrückt wird, einem auf dem Bildschirm der Anzeigeeinheit 16 platzierten Touch-Panel, oder einer Kombination einiger dieser Komponenten aufgebaut sein. Bedientastendaten, welche durch die Anwenderbedienung auf dieser manuellen Bedieneinheit 14 erzeugt werden, werden an die Anzeigensteuereinheit 15 und die verschiedene Funktionenausführungseinheit 17 gesendet.
  • Die Anzeigensteuereinheit 15 erzeugt Bildschirmdaten zur Anzeige eines Bildes auf dem Bildschirm der Anzeigeeinheit 16 anhand entweder der daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten oder der daran aus der manuellen Bedieneinheit 14 gesendeten Bedientastendaten, und sendet die Bildschirmdaten an die Anzeigeeinheit 16. Die Anzeigensteuereinheit 15 erzeugt auch Bildschirmdaten zum Anzeigen von Prozessergebnissen auf dem Bildschirm der Anzeigeeinheit 16 anhand von daran aus der Verschiedene-Funktionsausführungseinheit 17 gesendeten Anzeigedaten und sendet die Bildschirmdaten an die Anzeigeeinheit 16. Die Anzeigensteuereinheit 15 speichert die Tastennamen aller auf allen Bildschirmen existierenden Tasten, die derzeit in dieser Spracherkennungsvorrichtung vorbereitet sind, wie oben erwähnt, und jeder der Tastennamen kann durch die Tastenkandidaten-Detektionseinheit 13 gelesen werden.
  • Die Anzeigensteuereinheit 15 ist mit einer Tastensteuereinheit 15a und einer Bildschirm-Übergangseinheit 15b versehen. Die Tastensteuereinheit 15a kann den Anzeigestil einer Taste auf dem Bildschirm verändern. Beispielsweise führt die Tastensteuereinheit 15a einen Prozess der Veränderung der Farbe oder Helligkeit eines Tastenkandidaten auf dem Bildschirm, Blinkenlassen eines Tastenkandidaten oder Ändern der Größe oder Form eines Tastenkandidaten durch, um somit den Tastenkandidaten auf dem Bildschirm hervorzuheben. Da die Spracherkennungsvorrichtung den Anwender durch diesen Hervorhebungsprozess dazu benachrichtigen kann, welche Taste auf dem Bildschirm ausgewählt ist, kann die Spracherkennungsvorrichtung den Anwender leicht zur nächsten Bedienung führen.
  • Wenn die aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten zeigen, dass ein einzelner Tastenkandidat detektiert ist, führt die Bildschirm-Übergangseinheit 15b einen Prozess des Durchführens eines Übergangs zu einem Bildschirm aus, der derselbe ist wie derjenige, der erzeugt wird, wenn der Tastenkandidat heruntergedrückt wird, d.h. ein Bildschirm, der einer Funktion, die aktuell dem heruntergedrückten Tastenkandidaten zugewiesen ist, ermöglicht ausgeführt zu werden.
  • Weiterhin, wenn die daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten zeigen, dass eine Mehrzahl von Tastenkandidaten detektiert sind, und diese Tastenkandidaten auf dem aktuell angezeigt werdenden Bildschirm vorhanden sind, führt die Bildschirmübergangseinheit 15b einen Übergang zu einem Bildschirm durch, der einen Zustand zeigt, in dem zumindest einer aus der Mehrzahl von Tastenkandidaten ausgewählt ist. Wenn andererseits die Tastenkandidaten auf dem aktuell angezeigt werdenden Bildschirm nicht vorhanden sind, führt die Bildschirmübergangseinheit einen Prozess der Vornahme eines Übergangs zu einem Bildschirm durch, auf dem die Mehrzahl von Tastenkandidaten vorhanden sind. Bildschirmdaten, die diesen Bildschirm zeigen, zu dem der vorherige Bildschirm durch die Bildschirmübergangseinheit 15b überführt wird, werden an die Anzeigeeinheit 16 gesendet.
  • Die Anzeigeeinheit 16 besteht beispielsweise aus einer LCD (Flüssigkristallanzeige) und zeigt ein Bild gemäß den aus der Anzeigensteuereinheit 15 an sie gesendeten Bildschirmdaten an.
  • Die Verschiedene-Funktionsausführungseinheit 17 führt einen Prozess des Implementierens entweder einer aktuell dem durch die daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten gezeigten Tastenkandidaten zugewiesenen Funktion oder einer aktuell der durch die aus der manuellen Bedieneinheit 14 daran gesendeten Bedienungstastendaten gezeigten Bedienungstaste zugewiesenen Funktion aus. Durch diese Verschiedene-Funktionsausführungseinheit 17 implementierte Funktionen beinhalten beispielsweise eine Funktion zum Implementieren von HFT (Freisprechtelefonieren, hands free telephone) oder AV (Audio Visuell). Wenn der Prozess des Implementierens der Funktion abgeschlossen ist, erzeugt die Verschiedene-Funktionsausführungseinheit 17 Nachrichtendaten, um den Anwender zu benachrichtigen, dass der Prozess der Implementierung der Funktion abgeschlossen ist, und sendet die Nachrichtendaten an die Antwort-Spracherzeugungseinheit 18, und erzeugt ebenfalls Anzeigedaten, welche die Prozessergebnisse zeigen, und sendet die Anzeigedaten an die Anzeigensteuereinheit 15.
  • Wenn die Tastenkandidaten aus der Tastenkandidaten-Detektionseinheit 13 an sie gesendet werden, erzeugt die Antwort-Spracherzeugungseinheit 18 ein Tonsignal, das eine Lesung des Tastennamens des durch die Tastenkandidatendaten gezeigten Tastenkandidaten zeigt, und erzeugt auch ein Tonsignal anhand der an sie aus der Verschiedene-Funktionsausführungseinheit 17 gesendeten Nachrichtendaten.
  • Die durch diese Antwort-Spracherzeugungseinheit 18 erzeugten Tonsignale werden an die Sprachausgabeeinheit 19 gesendet.
  • Die Sprachausgabeeinheit 19 besteht beispielsweise aus einem Lautsprecher und gibt eine Stimme anhand des daran aus der Antwort-Spracherzeugungseinheit 18 gesendeten Tonsignals aus. Weil diese Antwort-Spracherzeugungseinheit 18 und die Sprachausgabeeinheit 19 den Anwender über die auf dem Bildschirm ausgewählte Taste benachrichtigen können, kann die Spracherkennungsvorrichtung den Anwender leicht zur nächsten Bedienung führen.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung, die wie oben aufgebaut ist, erläutert. Zuerst wird der Betrieb der Spracherkennungsvorrichtung unter Bezugnahme auf ein in 2 gezeigtes Flussdiagramm erläutert, wobei auf einen Sprachbedienungsprozess fokussiert wird, bis einschließlich zur Präsentation eines Erkennungsergebnisses einem Anwender, nach Erkennen der Anwendersprache.
  • Bei diesem Sprachoperationsprozess wird zuerst eine Anwendersprache eingegeben (Schritt ST11). Spezifischer wandelt die Spracheingabeeinheit 11 eine von einem Anwender geäußerte Sprache in ein elektrisches Signal um und sendet dieses elektrische Signal als ein Tonsignal an die Spracherkennungsverarbeitungseinheit 12. Dann wird die Spracherkennung ausgeführt (Schritt ST12). Spezifischer führt die Spracherkennungsverarbeitungseinheit 12 den Spracherkennungsprozess auf Basis des daran aus der Spracheingabeeinheit 11 gesendeten Tonsignals durch und sie sendet das Ergebnis der Erkennung an die Tastenkandidaten-Detektionseinheit 13.
  • Dann wird ein Tastenkandidat detektiert (Schritt ST13). Spezifischer vergleicht die Tastenkandidaten-Detektionseinheit 13 das aus der Spracherkennungsverarbeitungseinheit 12 an sie gesendete Erkennungsergebnis mit einem Tastennamen, der auf allen Bildschirmen existiert, und die aus der Anzeigensteuereinheit 15 erfasst werden, um so als einen Tastenkandidaten eine oder mehrere Tasten zu detektieren, die alle einen Tastennamen haben, der partiell zum Erkennungsergebnis passt. Tastenkandidatendaten, die den einen oder mehrere der Tastenkandidaten zeigen, die durch diese Tastenkandidaten-Detektionseinheit 13 detektiert sind, werden an die Anzeigensteuereinheit 15, die Verschiedene-Funktionsausführungseinheit 17 und die Antwort-Spracherzeugungseinheit 18 gesendet. Wenn in diesem Schritt ST13 kein Tastenkandidat detektiert wird, beendet die Spracherkennungsvorrichtung den Sprachbedienungsprozess, wobei dies nicht illustriert ist.
  • Dann wird überprüft, ob die Zahl der einen oder mehreren Tastenkandidaten, die detektiert werden, größer als „1“ ist oder nicht (Schritt ST14). Spezifischer überprüft die Anzeigensteuereinheit 15, ob die Anzahl der durch die daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten gezeigten Tastenkandidaten größer als „1“ ist oder nicht.
  • Wenn in diesem Schritt ST14 festgestellt wird, dass die Anzahl von einem oder mehreren Tastenkandidaten nicht größer als „1“ ist, d.h. die Anzahl der detektierten einen oder mehreren Tastenkandidaten einzahlig ist, wird dann ein Bildschirmübergang ausgeführt (Schritt ST15). Spezifischer nimmt die Bildschirm-Übergangseinheit 15b der Anzeigensteuereinheit 15 einen Übergang zu einem Bildschirm vor, welcher derselbe ist wie derjenige, der in einem Fall erzeugt wird, in dem der Tastenkandidat heruntergedrückt wird.
  • Als Ergebnis macht beispielsweise in einem Fall, in dem der Anwender „YYY“ in einem Zustand, in dem die folgenden Tastennamen: „XXXXXX“, „YYYABC“, „ZZZDEF“, und „ZZZZZZ“ auf einem Menübildschirm angezeigt sind, ausstößt, und nur „YYYABC“ als Tastenkandidat detektiert wird, die Bildschirm-Übergangseinheit einen Übergang zu einem YYYABC-Funktionsbildschirm, wie in 3 gezeigt.
  • Zu dieser Zeit erzeugt die Antwort-Stimmerzeugungseinheit 18 ein Tonsignal, das eine Lesung des Tastennamens des durch die aus der Tastenkandidaten-Detektionseinheit 13 an sie gesendeten Tastenkandidatendaten gezeigten Tastenkandidaten zeigt, um so den Anwender zu veranlassen, die Lesung zu überprüfen, und sendet das Tonsignal an die Sprachausgabeeinheit 19. Die Sprachausgabeeinheit 19 gibt eine Sprache anhand des daran aus der Antwort-Stimmerzeugungseinheit 18 gesendeten Tonsignals aus. Als Ergebnis gibt die Sprachausgabeeinheit 19 eine Bestätigungsstimme „YYYABC“ Papageien-artig aus.
  • Dann wird eine der verschiedenen Funktionen ausgeführt (Schritt ST16). Spezifischer führt die Verschiedene-Funktionsausführungseinheit 17 einen Prozess des Implementierens einer Funktion aus, die dem durch die daran aus der Tastenkandidaten-Detektionseinheit gesendeten Tastenkandidatendaten gezeigten Tastenkandidaten zugewiesen ist. Wenn dann der Prozess abgeschlossen wird, erzeugt die Verschiedene-Funktionsausführungseinheit Nachrichtendaten, die eine Benachrichtigung des Abschlusses der Operation zeigen und sendet die Nachrichtendaten an die Antwort-Spracherzeugungseinheit 18 und erzeugt auch Anzeigedaten, welche die Prozessergebnisse anzeigen, und sendet die Anzeigedaten an die Anzeigensteuereinheit 15. Die Anzeigensteuereinheit 15 erzeugt Bildschirmdaten gemäß den daran aus der Verschiedene-Funktionsausführungseinheit 17 gesendeten Anzeigedaten und sendet die Bildschirmdaten an die Anzeigeeinheit 16.
  • Dann wird eine Antwortstimme erzeugt (Schritt ST17). Spezifischer erzeugt die Antwort-Spracherzeugungseinheit 18 ein Tonsignal anhand der Nachrichtendaten, welche die Benachrichtigung des Operationsabschlusses zeigen, die aus der Verschiedene-Funktionsausführungseinheit 17 daran gesendet werden, und sendet das Tonsignal an die Sprachausgabeeinheit 19.
  • Dann wird eine Präsentation für den Benutzer ausgeführt (Schritt ST18). Spezifischer erzeugt die Anzeigeeinheit 16 eine Bildschirmanzeige anhand der daran aus der Anzeigensteuereinheit 15 gesendeten Bildschirmdaten. Als Ergebnis werden die Prozessergebnisse auf dem Bildschirm der Anzeigeeinheit 16 angezeigt. Die Sprachausgabeeinheit 19 gibt auch Sprache anhand des daran aus der Antwort-Spracherzeugungseinheit 18 gesendeten Tonsignals aus. Als Ergebnis wird die Benachrichtigung, die zeigt, dass die Operation abgeschlossen worden ist, durch Sprache ausgegeben. Dann wird der Sprachoperationsprozess beendet.
  • Wenn im oben erwähnten Schritt ST14 festgestellt wird, dass die Anzahl eines oder mehrerer Tastenkandidaten, die detektiert werden, größer als „1“ ist, d.h. die Anzahl von einem oder mehreren Tastenkandidaten mehrzahlig ist, wird ein Bildschirmübergang durchgeführt (Schritt ST19). Spezifischer nimmt die Bildschirm-Übergangseinheit 15b der Anzeigensteuereinheit 15 einen Übergang zu einem Bildschirm vor, welches derselbe wie derjenige ist, der in einem Fall erzeugt wird, in dem der Tastenkandidat, dessen Erkennungsergebnis maximale Wahrscheinlichkeit hat, ausgewählt wird. Als Ergebnis, wenn der Anwender „YYY“ in demjenigen Zustand ausstößt, in dem die folgenden Tastennamen „XXXXXX“, „YYYABC“, YYYDEF“, und „ZZZZZZ“ auf dem Menü-Bildschirm angezeigt werden, und „YYYABC“ und „YYYDEF“ als Tastenkandidaten detektiert werden, wie beispielsweise in 4 gezeigt, nimmt die Bildschirm-Übergangseinheit einen Übergang zu einem Zustand vor, in dem der Tastenkandidat „YYYABC“ mit maximaler Wahrscheinlichkeit ausgewählt wird. In diesem Fall kann die Bildschirm-Übergangseinheit alternativ auf solche Weise aufgebaut sein, dass sie einen Übergang zu einem Bildschirm vornimmt, welches derselbe ist wie derjenige, der in einem Fall erzeugt wird, in dem zumindest einer aus der Mehrzahl von Tastenkandidaten anstelle nur des Tastenkandidaten mit der maximalen Wahrscheinlichkeit, ausgewählt wird.
  • Zu diesem Zeitpunkt erzeugt die Antwort-Spracherkennungseinheit 18 ein Tonsignal, um den Anwender zu veranlassen, die Anzahl des einen oder mehreren Tastenkandidaten zu überprüfen, die durch die aus der Tastenkandidaten-Detektionseinheit 13 an sie gesendeten Tastenkandidatendaten gezeigt werden, und sendet das Tonsignal an die Sprachausgabeeinheit 19, und die Sprachausgabeeinheit 19 gibt eine Stimme gemäß dem daran aus der Antwort-Spracherzeugungseinheit 18 gesendeten Tonsignal aus. Als Ergebnis gibt die Sprachausgabeeinheit 19 eine Nachricht wie etwa beispielsweise „Es gibt zwei Kandidaten“ durch Sprache aus.
  • Dann wird ein Hervorheben ausgeführt (Schritt ST20). Spezifischer führt die Tastensteuereinheit 15a der Anzeigensteuereinheit 15 einen Prozess des Hervorhebens des Tastenkandidaten mit der maximalen Wahrscheinlichkeit durch Ändern der Farbe oder Helligkeit dieses Tastenkandidaten, Blinkenlassen des Tastenkandidaten oder Ändern der Größe oder Form des Tastenkandidaten durch. Die Tastensteuereinheit 15a kann alternativ auf solche Weise aufgebaut sein, dass sie die anderen Tasten als den Tastenkandidaten mit der maximalen Wahrscheinlichkeit in einer nicht prominenten Form anzeigt, statt den Tastenkandidaten mit der maximalen Wahrscheinlichkeit hervorzuheben. Als Alternative kann die Tastensteuereinheit 15a auf solche Weise konstruiert sein, dass sie alle aus der Mehrzahl von Tastenkandidaten hervorhebt.
  • Dann wird eine Antwortstimme erzeugt (Schritt ST21). Spezifischer erzeugt die Antwort-Spracherzeugungseinheit 18 ein Tonsignal anhand von Nachrichtendaten, welche zeigen, dass die Operation noch nicht abgeschlossen ist, und sendet das Tonsignal an die Sprachausgabeeinheit 19.
  • Dann wird eine Präsentation für den Anwender ausgeführt (Schritt ST18). Spezifischer erzeugt die Anzeigeeinheit 16 einen Anzeige-Bildschirm anhand der aus der Anzeigensteuereinheit 15 an sie gesendeten Bildschirmdaten. Als Ergebnis wird ein Menubildschirm, bei dem der Tastenkandidat mit der maximalen Wahrscheinlichkeit hervorgehoben ist, auf dem Bildschirm der Anzeigeeinheit 16 angezeigt. Die Sprachausgabeeinheit 19 gibt auch eine Sprache gemäß dem aus der Antwort-Spracherzeugungseinheit 18 an sie gesendeten Tonsignal aus. Als Ergebnis wird eine Benachrichtigung, welche anzeigt, dass die Operation noch nicht abgeschlossen ist, durch Sprache ausgegeben. Dann wird der Sprachoperationsprozess beendet.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung unter Bezugnahme auf ein in 5 gezeigtes Flussdiagramm erläutert, wobei auf den Sprachoperationsprozess einschließlich bis zum Abschluss der Operation nachdem eine Additionsoperation zum Zeitpunkt durchgeführt worden ist, wenn die Operation noch nicht abgeschlossen ist, fokussiert wird. Dieser Sprachoperationsprozess kann auf solche Weise konfiguriert sein, dass er sowohl die Sprachoperation unter Verwendung von Spracherkennung als auch die manuelle Operation unter Verwendung des Herunterdrückens einer Taste unterstützt.
  • Zuerst wird der manuelle Betrieb unter Verwendung des Herunterdrückens einer Taste erläutert. Beim Sprachoperationsprozess gemäß der manuellen Operation wird zuerst eine Täte heruntergedrückt (Schritt ST31). Spezifischer betätigt in einem Zustand, in dem eine Mehrzahl von Tastenkandidaten ausgewählt sind, der Anwender die manuelle Operationseinheit 14, um eine auf dem Bildschirm der Anzeigeeinheit 16 angezeigte Taste herunterzudrücken. Operationstastendaten, die erzeugt werden, wenn der Anwender diese manuelle Operationseinheit 14 bedient, werden an die Anzeigensteuereinheit 15 und die Verschiedene-Funktionsausführungseinheit 17 gesendet.
  • Dann wird ein Bildschirmübergang durchgeführt (Schritt ST32). Spezifischer nimmt die Bildschirmübergangseinheit 15b der Anzeigensteuereinheit 15 einen Übergang zu einem für die Funktion entsprechend der Operationstaste, die vom Anwender heruntergedrückt worden ist, vorbereiteten Funktionsbildschirm vor.
  • Dann wird eine der verschiedenen Funktionen ausgeführt (Schritt ST33). Spezifischer führt die Verschiedene-Funktionsausführungseinheit 17 einen Prozess des Implementierens der der Taste, welche durch die aus der manuellen Operationseinheit 14 an sie gesendeten Operationstastendaten gezeigt ist, zugewiesenen Funktion aus. Wenn der Prozess dann abgeschlossen ist, erzeugt die Verschiedene-Funktionsausführungseinheit Nachrichtendaten, welche ein Benachrichtigen des Abschlusses der Operation anzeigen und sendet die Nachrichtendaten an die Antwort-Spracherzeugungseinheit 18.
  • Dann wird eine Antwortsprache erzeugt (Schritt ST34). Spezifischer erzeugt die Antwort-Spracherzeugungseinheit 18 ein Tonsignal anhand der Nachrichtendaten, welche die Benachrichtigung des Abschlusses der Operation zeigen, die daran aus der verschiedenen Funktionsausführungseinheit 17 gesendet werden und sendet das Tonsignal an die Sprachausgabeeinheit 19. Die Sprachausgabeeinheit 19 gibt eine Sprache anhand des daran aus der Antwort-Spracherzeugungseinheit 18 gesendeten Tonsignals aus. Als Ergebnis wird die Benachrichtigung, die zeigt, dass die Operation abgeschlossen ist, durch Sprache ausgegeben. Dann wird der Sprachoperationsprozess beendet.
  • Wenn Anzeigedaten, welche die Prozessergebnisse zeigen, in Schritt ST33 erzeugt werden, werden die erzeugten Anzeigedaten an die Anzeigensteuereinheit 15 gesendet. Die Anzeigensteuereinheit 15 erzeugt Bildschirmdaten anhand der daran aus der Verschiedene-Funktionsausführungseinheit 17 gesendeten Anzeigedaten und sendet die Bildschirmdaten an die Anzeigeeinheit 16. Die Anzeigeeinheit 16 erzeugt eine Bildschirmanzeige anhand der aus der Anzeigensteuereinheit 15 an sie gesendeten Bildschirmdaten. Als Ergebnis werden die Prozessergebnisse auf dem Bildschirm der Anzeigeeinheit 16 angezeigt.
  • Als Nächstes wird die Sprachoperation unter Verwendung der Spracherkennung erläutert. Beim Sprachoperationsprozess gemäß der Sprachoperation wird zuerst Spracherkennung ausgeführt (Schritt ST41). Der Prozess dieses Schrittes 41 ist derselbe wie derjenige des Schrittes ST12 des in 2 gezeigten Flussdiagramms. Die in diesem Schritt ST41 ausgeführte Spracherkennung kann in einer solchen Weise konfiguriert sein, dass nur der Tastenname eines oder mehrerer Tastenkandidaten, die zum Zeitpunkt der vorherigen Sprachoperation detektiert sind, als ein Bereitschaftswort (ein Wort, das erkannt werden kann) definiert sind. Gemäß dieser Struktur wird die Erkennung eines Tastenkandidaten einfach.
  • Einer oder mehrere Tastenkandidaten werden dann detektiert (Schritt ST42). Der Prozess dieses Schrittes ST42 ist derselbe wie derjenige des Schrittes ST13 des in 2 gezeigten Flussdiagramms. Dann wird überprüft, ob die Anzahl von einem oder mehreren Tastenkandidaten, die detektiert werden, größer als „1“ ist oder nicht (Schritt ST43). Spezifischer überprüft die Anzeigensteuereinheit 15, ob die Anzahl von einem oder mehreren Tastenkandidaten, die durch die daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidatendaten größer ist als „1“ oder nicht. Wenn in dem Schritt ST43 festgestellt wird, dass die Anzahl von einem oder mehreren Tastenkandidaten, die detektiert sind, nicht größer als „1“ ist, d.h. die Anzahl von einem oder mehreren detektierten Tastenkandidaten einzahlig ist, rückt die Spracherkennungsvorrichtung die Abfolge zu Schritt ST32 vor und führt dann einen Bildschirmübergang durch, wie oben erwähnt. Spezifischer führt die Bildschirm-Übergangseinheit 15b der Anzeigensteuereinheit 15 einen Übergang zu einem Bildschirm durch, welches derselbe ist wie der, der in einem Fall erzeugt wird, bei dem der Tastenkandidat heruntergedrückt wird. Dann wird der oben erwähnte Prozess ausgeführt.
  • Wenn andererseits in Schritt ST43 festgestellt wird, dass die Anzahl eines oder mehr detektierter Tastenkandidaten größer als „1“ ist, d.h. die Anzahl von einem oder mehreren detektierten Tastenkandidaten mehrzahlig ist, wird dann ein Bildschirmübergang ausgeführt (Schritt ST44). Der Prozess dieses Schrittes ST44 ist derselbe wie derjenige des Schrittes ST19 des in 19 gezeigten Flussdiagramms. Dann wird eine Hervorhebung ausgeführt (Schritt ST45). Der Prozess dieses Schrittes ST45 ist derselbe wie derjenige des Schrittes ST20 des in 2 gezeigten Flussdiagramms. Eine Antwortsprache wird dann erzeugt (Schritt ST46). Der Prozess dieses Schrittes ST46 ist derselbe wie derjenige des Schrittes ST21 des in 2 gezeigten Flussdiagramms. Danach führt die Spracherkennungsvorrichtung die Abfolge zu Schritt ST31 oder ST41 zurück und wiederholt die oben erwähnte Verarbeitung.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung unter Bezugnahme auf ein in 6 gezeigtes Flussdiagramm erläutert, wobei auf einen Sprachoperationsprozess des Abschließens der Operation in Reaktion auf die Anwenderäußerung eines anderen Wortes als Tastennamen zum Zeitpunkt, wenn die Operation noch nicht abgeschlossen worden ist, fokussiert wird.
  • In diesem Sprachoperationsprozess wird zuerst eine Rückkopplung (Feedback) der vorherigen Operation durchgeführt (Schritt ST51). Spezifischer erzeugt die Antwort-Spracherzeugungseinheit 18 ein Tonsignal, das eine Nachricht der Rückkopplung der vorherigen Operation zeigt und sendet das Tonsignal an die Sprachausgabeeinheit 19. Die Sprachausgabeeinheit 19 gibt eine Stimme anhand des daran aus der Antwort-Spracherzeugungseinheit 18 gesendeten Tonsignals aus. Als Ergebnis wird die folgende Nachricht: „haben Sie „oxox geäußert?“ per Sprache ausgegeben. Der Anwender äußert „Ja“, „Nein“, „Nächstes“, „Vorheriges“ oder dergleichen in Reaktion auf diese Nachricht.
  • Dann wird Spracherkennung durchgeführt (Schritt ST52). Spezifischer führt die Spracherkennungsverarbeitungseinheit 12 den Spracherkennungsprozess anhand des daran aus der Spracheingabeeinheit gesendeten Tonsignals durch und sendet ein Erkennungsergebnis an die Anzeigensteuereinheit 15.
  • Dann wird überprüft, ob ein, einem Fall, in dem eine Taste, wie etwa „Ja“, heruntergedrückt worden ist, entsprechendes Wort erkannt worden ist, oder nicht (Schritt ST53). Spezifischer überprüft die Anzeigensteuereinheit 15, ob das aus der Spracherkennungsverarbeitungseinheit 12 gesendete Erkennungsergebnis ein Wort zeigt, das einem Fall entspricht, in dem eine Taste, wie etwa „Ja“, heruntergedrückt wird. Ein dem Fall entsprechendes Wort, bei dem eine Taste, wie etwa „Ja“, heruntergedrückt wird, kann bestätigende Worte mit einer ähnlichen Bedeutung beinhalten, wie etwa „Ja“ und „O.K.“.
  • Wenn in diesem Schritt ST53 festgestellt wird, dass irgendein Wort, das dem Fall entspricht, in dem ein Taste, wie etwa „Ja“ heruntergedrückt wird, nicht erkannt worden ist, zum Beispiel, wenn festgestellt wird, dass ein negatives Wort, wie etwa „Nein“, „Vorheriges“ oder „Nächstes“ erkannt worden ist, wird der nächste oder vorherige Tastenkandidat hervorgehoben (Schritt ST54). Spezifischer führt die Tastensteuereinheit 15a der Anzeigensteuereinheit 15 einen Prozess des Hervorhebens des nächsten oder vorherigen Tastenkandidaten durch, indem die Farbe oder Helligkeit des Tastenkandidaten verändert wird, der Tastenkandidat blinken gelassen wird oder die Größe oder Form des Tastenkandidaten verändert wird. Danach führt die Spracherkennungsvorrichtung die Abfolge zu Schritt ST51 zurück und wiederholt dann die oben erwähnte Verarbeitung.
  • Wenn andererseits in Schritt ST53 festgestellt wird, dass ein Wort, das einem Fall entspricht, bei dem eine Taste, wie etwa „Ja“, heruntergedrückt wird, erkannt worden ist, wird dann ein Bildschirmübergang durchgeführt (Schritt ST55). Spezifischer führt die Bildschirmübergangseinheit 15b der Anzeigensteuereinheit 15 einen Übergang zu einem Bildschirm durch, welcher derselbe ist wie derjenige, der in einem Fall erzeugt wird, in dem der nächste oder vorherige Tastenkandidat heruntergedrückt wird.
  • Dann wird eine der verschiedenen Funktionen ausgeführt (Schritt ST56). Der Prozess dieses Schrittes ST56 ist derselbe wie derjenige des in 2 gezeigten Schrittes ST16. Eine Antwortstimme wird dann erzeugt (Schritt ST57). Der Prozess dieses Schrittes ST57 ist derselbe wie derjenige des in 2 gezeigten Schrittes ST17. Als Ergebnis, während die Prozessergebnisse auf dem Bildschirm der Anzeigeeinheit 16 angezeigt werden, wird eine Benachrichtigung, die zeigt, dass die Operation abgeschlossen worden ist, durch Sprache ausgegeben. Danach wird der Sprachoperationsprozess beendet.
  • Wie zuvor erläutert, weil die Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung auf solche Weise aufgebaut ist, dass sie eine Taste mit einem Tastennamen, der partiell zum Ergebnis der Spracherkennung passt, als eine Tastenkandidaten detektiert, und wenn eine Mehrzahl von Tastenkandidaten detektiert werden, eine Bildschirmanzeige in einem Zustand erzeugt, in dem zumindest einer aus der Mehrzahl von Tastenkandidaten ausgewählt ist, um so den Anwender in die Lage zu versetzen, einen der Tastenkandidaten herunterzudrücken, kann die Spracherkennungsvorrichtung eine Sprachoperation anhand derselben Prozedur wie derjenigen durchführen, gemäß der die Spracherkennungsvorrichtung eine manuelle Operation durchführt, selbst falls die Anwenderäußerung vage ist. Weiterhin, weil die Spracherkennungsvorrichtung keinen Bildschirm anzeigt, der für Sprachoperationen spezifisch ist, wie etwa einem Bildschirm, der eine Kandidatenliste anzeigt, die oft erzeugt wird, um die Vagheit aufzulösen, ist die Einfachheit der Sprachbedienung nicht beeinträchtigt.
  • Ausführungsform 2.
  • 7 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt. Diese Spracherkennungsvorrichtung ist auf solche Weise aufgebaut, dass sie eine Operationshistoriensammeleinheit 20 und eine Tastenkandidateneinengeinheit 21 zusätzlich zu den Komponenten der Spracherkennungsvorrichtung gemäß der oben erwähnten Ausführungsform 1 beinhaltet. Die Spracherkennungsvorrichtung ist weiter auf solche Weise modifiziert, dass Informationen, die einen oder mehrere durch eine Tastenkandidaten-Detektionseinheit 13 detektierte Tastenkandidaten zeigen, an die Tastenkandidateneinengeinheit 21 gesendet werden.
  • Die Operationshistoriensammeleinheit 20 sammelt Operationshistorien (Bedienhistorien bzw. -verläufe) von Tasten, welche durch Sprachbedienungen bedient worden sind. Spezifischer speichert die Operationshistoriensammeleinheit 20 eine Operationshistorie, die eine Entsprechung zwischen den Tastennamen und der Anzahl von Bedienungen für jede aller dieser Tasten ist, und wenn die Informationen, die Tastenkandidaten anzeigen, die aus der Tastenkandidaten-Detektionseinheit 13 gesendet sind, zeigen, dass ein einzelner Tastenkandidat detektiert wird, inkrementiert die Operationshistoriensammeleinheit die Anzahl von Operationen entsprechend dem Tastennamen dieses Tastenkandidaten. Die in dieser Operationshistoriensammeleinheit 20 gespeicherte Operationshistorie wird durch die Tastenkandidateneinengeinheit 21 referenziert.
  • Wenn die, die aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidaten zeigende Informationen zeigen, dass eine Mehrzahl von Tastenkandidaten detektiert sind, bezieht sich die Tastenkandidateneinengeinheit 21 auf die Operationshistoriensammeleinheit 20, um so den Tastenkandidaten auszuwählen, der aus der Mehrzahl von Tastenkandidaten am häufigsten betätigt worden ist. Der durch diese Tastenkandidateneinengeinheit 21 eingeengte Tastenkandidat wird einer Anzeigensteuereinheit 15, einer Verschiedene-Funktionsausführungseinheit 17 und einer Antwort-Spracherzeugungseinheit 18 als Tastenkandidatendaten mitgeteilt.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung unter Bezugnahme auf ein in 8 gezeigtes Flussdiagramm erläutert, wobei auf einen Sprachbedienprozess einschließlich ab der Erkennung einer Anwendersprache bis zur Präsentation des Erkennungsergebnisses für den Anwender fokussiert wird. Die Schritte, in denen jeweils derselbe Prozess ausgeführt wird wie durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1, die im Flussdiagramm von 2 gezeigt ist, oder ein ähnlicher Prozess ausgeführt wird, werden durch dieselben Bezugszeichen wie jene bezeichnet, die in 2 gezeigt sind und die Erläuterung der Schritte wird vereinfacht.
  • In diesem Sprachbedienprozess wird zuerst eine Stimme eingegeben (Schritt ST11). Dann wird eine Erkennung dieser Stimme ausgeführt (Schritt ST12). Dann werden ein oder mehrere Tastenkandidaten detektiert (Schritt ST13). Ob die Anzahl von ein oder mehr detektierten Tastenkandidaten größer als „1“ ist, wird dann überprüft (Schritt ST14).
  • Wenn in diesem Schritt ST14 festgestellt wird, dass die Anzahl von detektierten einem oder mehreren Tastenkandidaten nicht größer als „1“ ist, d.h. die Anzahl der detektierten ein oder mehreren Tastenkandidaten einzahlig ist, wird eine Bedienungshistorie des Tastenkandidaten gespeichert (Schritt ST61). Spezifischer inkrementiert die Operationshistoriensammeleinheit 20 die Anzahl von Operationen entsprechend dem Tastennamen des Tastenkandidaten, der durch die Informationen gezeigt ist, die den Tastenkandidaten zeigen, der daran aus der Tastenkandidaten-Detektionseinheit 13 gesendet ist.
  • Dann wird ein Bildschirmübergang ausgeführt (Schritt ST15). Dann wird eine von verschiedenen Funktionen ausgeführt (Schritt ST16). Dann wird eine Antwortsprache erzeugt (Schritt ST17). Dann wird eine Präsentation für den Anwender ausgeführt (Schritt ST18). Danach wird der Sprachbedienprozess beendet.
  • Wenn andererseits im oben erwähnten Schritt ST14 festgestellt wird, dass die Anzahl von einem oder mehreren detektierten Tastenkandidaten größer als „1“ ist, d.h. die Anzahl der ein oder mehr detektierten Tastenkandidaten mehrzahlig ist, werden dann die Tastenkandidaten eingeengt (Schritt ST62). Spezifischer bezieht sich die Tastenkandidateneinengeinheit 21 auf die Operationshistoriensammeleinheit 20 und engt die Mehrzahl von Tastenkandidaten ein, die durch die Informationen gezeigt sind, welche die daran aus der Tastenkandidaten-Detektionseinheit 13 gesendeten Tastenkandidaten zeigen, indem der Tastenkandidat ausgewählt wird, der aus der Mehrzahl von Tastenkandidaten am häufigsten bedient worden ist. Informationen, die den durch diese Tastenkandidateneinengeinheit 21 eingeengten Tastenkandidaten zeigen, werden an die Anzeigensteuereinheit 15, die Verschiedene-Funktionsausführungseinheit 17 und die Antwort-Spracherzeugungseinheit 18 als Tastenkandidatendaten gesendet.
  • Dann wird ein Bildschirmübergang ausgeführt (Schritt ST19). Dann wird ein Hervorheben ausgeführt (Schritt ST20). Dann wird eine Antwortsprache erzeugt (Schritt ST21). Dann wird für den Anwender eine Präsentation ausgeführt (Schritt ST18). Danach wird der Sprachbedienprozess beendet.
  • Im oben erwähnten, in 8 gezeigten Flussdiagramm ist der Fall erläutert, bei dem das Einengen von Tastenkandidaten auf den Sprachbedienprozess angewendet wird, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1 ausgeführt wird, der im Flussdiagramm von 2 gezeigt ist. Das Einengen von Tastenkandidaten kann auch auf den durch die Spracherkennungsvorrichtung gemäß der im Flussdiagramm von 5 gezeigten Ausführungsform 1 ausgeführten Sprachbedienprozess angewendet werden. In diesem Fall wird der Prozess des Speicherns der Bedienungshistorie der Tastenkandidaten, der in Schritt ST61 gezeigt ist, unmittelbar vor Schritt ST22 des in 5 gezeigten Flussdiagramms ausgeführt und der in Schritt ST62 gezeigte Tastenkandidateneinengprozess wird unmittelbar vor Schritt ST44 ausgeführt. Ähnlich kann das Einengen von Tastenkandidaten auch auf den durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1, gezeigt im Flussdiagramm von 6, ausgeführten Sprachbedienprozess angewendet werden. In diesem Fall wird der Prozess des Speicherns der Operationshistorie des Tastenkandidaten, der in Schritt ST61 gezeigt ist, unmittelbar vor Schritt ST55 des in 6 gezeigten Flussdiagramms ausgeführt.
  • Wie oben erläutert, weil die Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung als ein Tastenkandidat eine Taste auswählt, die eine hohe Wahrscheinlichkeit dafür aufweist, durch den Anwender bedient zu werden, um die Taste hervorzuheben, kann die Anzahl von Bedienungen, die der Anwender vornehmen wird, bis er/sie eine beabsichtigte Bedienung ausführt, reduziert werden.
  • Die Spracherkennungsvorrichtung gemäß der oben erwähnten Ausführungsform 2 kann wie folgt modifiziert werden. Spezifischer sendet die Anzeigensteuereinheit 15 Tastenanordnungsinformationen, die eine Tastenanordnung zeigen (wie die Tasten auf dem Bildschirm angeordnet sind), die darin vorab gespeichert sind, an die Tastenkandidateneinengeinheit 21.
  • Die Tastenkandidateneinengeinheit 21 bezieht sich auf die Tastenanordnungsinformationen, die daran aus der Anzeigensteuereinheit 15 gesendet werden und, wenn festgestellt wird, dass die daran aus der Tastenkandidaten-Detektionseinheit 13 mitgeteilten Tastenkandidaten kontinuierlich angeordnet sind, wählt sie den oberen der Tastenkandidaten aus. Der durch diese Tastenkandidateneinengeinheit 21 ausgewählte Tastenkandidat wird der Anzeigensteuereinheit 15, der Verschiedene-Funktionsausführungseinheit 17 und der Antwort-Spracherzeugungseinheit 18 als Tastenkandidatendaten mitgeteilt.
  • Weil gemäß dieser Struktur der obere Tastenkandidaten ausgewählt und hervorgehoben wird, wenn die Tastenkandidaten kontinuierlich angeordnet sind, kann der Anwender leicht die nächste Bedienung verstehen, die er oder sie durchführen sollte.
  • Industrielle Anwendbarkeit
  • Wie oben erwähnt, um in der Lage zu sein, sowohl eine manuelle Bedienung als auch eine Sprachbedienung gemäß derselben Prozedur durchzuführen, ist die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung auf solche Weise aufgebaut, dass sie beinhaltet: eine Spracheingabeeinheit zum Eingeben einer Sprache eines geäußerten Tastennamens, um die Sprache in ein elektrisches Signal zu wandeln; eine Spracherkennungsverarbeitungseinheit zum Durchführen eines Spracherkennungsprozesses anhand eines daran gesendeten Tonsignals als das elektrische Signal aus der Spracheingabeeinheit; eine Tastenkandidaten-Detektionseinheit zum Detektieren, als einen Tastenkandidaten, einer Taste mit einem Tastennamen, der partiell zu einem Spracherkennungsergebnis passt, das durch die Spracherkennungsverarbeitungseinheit erfasst ist; eine Anzeigensteuereinheit zum Erzeugen, wenn eine Mehrzahl von Kandidatentasten durch die Tastenkandidaten-Detektionseinheit detektiert werden, eines Bildschirms, der einen Zustand zeigt, in dem zumindest einer der Mehrzahl von Tastenkandidaten ausgewählt ist; und eine Anzeigeneinheit zum Anzeigen des durch die Anzeigensteuereinheit erzeugten Bildschirms, ist die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung zur Verwendung als eine Spracherkennungsvorrichtung geeignet, die Ausrüstung, wie etwa eine Navigationsvorrichtung, durch Sprache betreibt, und so weiter.

Claims (7)

  1. Spracherkennungsvorrichtung, umfassend: eine Spracheingabeeinheit (11) zum Eingeben einer Sprache eines geäußerten Tastennamens, um die Sprache in ein elektrisches Signal zu wandeln; eine Spracherkennungsverarbeitungseinheit (12) zum Durchführen eines Spracherkennungsprozesses anhand eines daran gesendeten Tonsignals als das elektrische Signal aus der Spracheingabeeinheit (11), um ein Spracherkennungsergebnis zu erfassen; eine Tastenkandidaten-Detektionseinheit (13) zum Vergleichen des durch die Spracherkennungsverarbeitungseinheit (12) erfassten Spracherkennungsergebnisses mit vorab für alle, auf allen Anzeigebildschirmen existierenden Tasten vorbereiteten Tastennamen, um so als einen Tastenkandidaten eine Taste mit einem Tastennamen zu detektieren, der partiell zu dem Spracherkennungsergebnis passt; eine Anzeigensteuereinheit (15) zum Erzeugen, wenn eine Mehrzahl von Kandidatentasten, die partiell mit dem Spracherkennungsergebnis übereinstimmen, durch die Tastenkandidaten-Detektionseinheit (13) detektiert werden, eines Bildschirms, der einen Zustand zeigt, in dem zumindest einer der Mehrzahl von Tastenkandidaten ausgewählt ist; und eine Anzeigeneinheit (16) zum Anzeigen des durch die Anzeigensteuereinheit (15) erzeugten Bildschirms.
  2. Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die Spracherkennungsvorrichtung eine Bildschirm-Übergangseinheit (15b) zum Durchführen eines Übergangs zu einem Bildschirm, auf dem der Tastenkandidat vorkommt, beinhaltet, wenn der durch die Tastenkandidaten-Detektionseinheit (13) detektierte Tastenkandidat nicht auf dem angezeigt werdenden Bildschirm existiert, und die Anzeigensteuereinheit (15) den Bildschirm erzeugt, zu welchem der vorherige Bildschirm durch die Bildschirm-Übergangseinheit (15b) überführt wird, der einen Zustand zeigt, in dem der Tastenkandidat auf dem Bildschirm ausgewählt ist.
  3. Spracherkennungsvorrichtung gemäß Anspruch 2, wobei die Anzeigensteuereinheit (15) eine Tastensteuereinheit (15a) zum Ändern einer Farbe oder Helligkeit des auf dem Bildschirm ausgewählten Tastenkandidaten oder Blinken lassen des ausgewählten Tastenkandidaten beinhaltet, um somit den ausgewählten Tastenkandidaten hervorzuheben.
  4. Spracherkennungsvorrichtung gemäß Anspruch 2, wobei die Anzeigensteuereinheit (15) eine Tastensteuereinheit (15a) zum Ändern einer Größe oder Form des auf dem Bildschirm ausgewählten Tastenkandidaten beinhaltet, um so den ausgewählten Tastenkandidaten hervorzuheben.
  5. Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die Spracherkennungsvorrichtung eine Antwort-Spracherzeugungseinheit (18) zum Erzeugen eines Tonsignals beinhaltet, das eine Lesung des Tastennamens des durch die Tastenkandidaten-Detektionseinheit detektierten Tastenkandidaten zeigt, und eine Sprachausgabeeinheit (19) zum Ausgeben des Tastennamens des Tastenkandidaten per Sprache anhand des durch die Antwort-Spracherzeugungseinheit erzeugten Tonsignals.
  6. Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die Spracherkennungsvorrichtung eine Tastenkandidateneinengeinheit (21) zum Referenzieren auf Tastenanordnungsinformationen beinhaltet, die Anordnungen von Tasten zeigen, welche in der Anzeigensteuereinheit vorab gespeichert sind, und, wenn bestimmt wird, dass eine Mehrzahl von durch die Tastenkandidaten-Detektionseinheit detektierten Tastenkandidaten kontinuierlich angeordnet sind, zum Einengen der Mehrzahl von Tastenkandidaten auf einen oberen Tastenkandidaten, und die Anzeigensteuereinheit (15) einen Bildschirm erzeugt, der einen Zustand zeigt, in dem der durch die Tastenkandidateneinengeinheit eingeengte Tastenkandidat ausgewählt ist.
  7. Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die Spracherkennungsvorrichtung eine Operationshistoriensammeleinheit (20) zum Sammeln von Operationshistorien, und eine Tastenkandidateneinengeinheit (21) zum Einengen einer Mehrzahl von durch die Tastenkandidaten-Detektionseinheit detektierten Tastenkandidaten auf einen Tastenkandidaten anhand der Operationshistorien, die durch die Operationshistoriensammeleinheit gesammelt sind, beinhaltet, und die Anzeigensteuereinheit (15) einen Bildschirm erzeugt, der einen Zustand zeigt, in dem der durch die Tastenkandidateneinengeinheit eingeengte Tastenkandidat ausgewählt ist.
DE112009001779.7T 2008-07-30 2009-04-23 Spracherkennungsvorrichtung Expired - Fee Related DE112009001779B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008-196443 2008-07-30
JP2008196443 2008-07-30
PCT/JP2009/001870 WO2010013369A1 (ja) 2008-07-30 2009-04-23 音声認識装置

Publications (2)

Publication Number Publication Date
DE112009001779T5 DE112009001779T5 (de) 2012-01-26
DE112009001779B4 true DE112009001779B4 (de) 2019-08-08

Family

ID=41610085

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112009001779.7T Expired - Fee Related DE112009001779B4 (de) 2008-07-30 2009-04-23 Spracherkennungsvorrichtung

Country Status (5)

Country Link
US (1) US8818816B2 (de)
JP (1) JPWO2010013369A1 (de)
CN (1) CN102105929B (de)
DE (1) DE112009001779B4 (de)
WO (1) WO2010013369A1 (de)

Families Citing this family (94)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120004910A1 (en) * 2009-05-07 2012-01-05 Romulo De Guzman Quidilig System and method for speech processing and speech to text
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US20110138286A1 (en) * 2009-08-07 2011-06-09 Viktor Kaptelinin Voice assisted visual search
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112010006037B4 (de) * 2010-11-30 2019-03-07 Mitsubishi Electric Corp. Spracherkennungsvorrichtung und Navigationssystem
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
WO2014006690A1 (ja) * 2012-07-03 2014-01-09 三菱電機株式会社 音声認識装置
JP2014010420A (ja) * 2012-07-03 2014-01-20 Seiko Epson Corp 集積回路装置
CN102945671A (zh) * 2012-10-31 2013-02-27 四川长虹电器股份有限公司 语音识别方法
JP2014126600A (ja) * 2012-12-25 2014-07-07 Panasonic Corp 音声認識装置、音声認識方法、およびテレビ
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
JP6229287B2 (ja) * 2013-04-03 2017-11-15 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
TWI497993B (zh) * 2013-10-09 2015-08-21 晶睿通訊股份有限公司 無線攝影裝置與以語音設定無線攝影裝置的方法
KR102158315B1 (ko) * 2013-10-14 2020-09-21 삼성전자주식회사 음성 제어를 수행하는 디스플레이 장치 및 그 음성 제어 방법
US9401146B2 (en) 2014-04-01 2016-07-26 Google Inc. Identification of communication-related voice commands
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102367132B1 (ko) * 2014-07-31 2022-02-25 삼성전자주식회사 디바이스 및 디바이스의 기능 수행 방법
KR20160016491A (ko) * 2014-07-31 2016-02-15 삼성전자주식회사 디바이스 및 디바이스의 기능 수행 방법
WO2016017978A1 (en) 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Device and method for performing functions
JP2016102823A (ja) * 2014-11-27 2016-06-02 アルパイン株式会社 情報処理システム、音声入力装置及びコンピュータプログラム
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) * 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
CN105988915A (zh) * 2015-06-03 2016-10-05 乐卡汽车智能科技(北京)有限公司 一种应用程序运行状态的展示方法及装置
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10013981B2 (en) * 2015-06-06 2018-07-03 Apple Inc. Multi-microphone speech recognition systems and related techniques
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
JP2016029495A (ja) * 2015-10-08 2016-03-03 パナソニックIpマネジメント株式会社 映像表示装置および映像表示方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
JP6759962B2 (ja) * 2016-10-18 2020-09-23 株式会社リコー 操作装置、情報処理システム及びプログラム
CN106427265A (zh) * 2016-11-01 2017-02-22 重庆乔登彩印包装有限公司 一种自动化音控书刊装订机
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR102388539B1 (ko) * 2017-04-30 2022-04-20 삼성전자주식회사 사용자 발화를 처리하는 전자 장치
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
KR20190113130A (ko) * 2018-03-27 2019-10-08 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
CN112005554A (zh) * 2018-04-27 2020-11-27 索尼公司 信息处理装置和信息处理方法
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109885649A (zh) * 2018-12-29 2019-06-14 百度在线网络技术(北京)有限公司 设置唤醒词的方法和装置、机器可读存储介质及处理器
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN109867178B (zh) * 2019-04-03 2021-06-29 迅达(中国)电梯有限公司 电梯和电梯操纵装置
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
JP2020201363A (ja) * 2019-06-09 2020-12-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091309A (ja) 1996-09-12 1998-04-10 Toshiba Corp 情報入出力装置及び情報入出力方法
US20030061053A1 (en) 2001-09-27 2003-03-27 Payne Michael J. Method and apparatus for processing inputs into a computing device
US20030158736A1 (en) 2002-02-15 2003-08-21 Frankie James Voice-controlled data entry
US20040122673A1 (en) 2002-12-11 2004-06-24 Samsung Electronics Co., Ltd Method of and apparatus for managing dialog between user and agent
US20050055218A1 (en) 2001-10-24 2005-03-10 Julia Luc E. System and method for speech activated navigation
US20060111906A1 (en) 2004-11-19 2006-05-25 International Business Machines Corporation Enabling voice click in a multimodal page
US7069220B2 (en) 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
US7076425B2 (en) 2001-03-19 2006-07-11 Nissam Motor Co., Ltd. Voice recognition device with larger weights assigned to displayed words of recognition vocabulary
JP2006208461A (ja) 2005-01-25 2006-08-10 Honda Motor Co Ltd 音声認識型機器制御装置
US20070100636A1 (en) 2005-11-02 2007-05-03 Makoto Hirota Speech recognition apparatus
EP1863015A1 (de) 2006-05-31 2007-12-05 Funai Electric Co., Ltd. Elektronisches Gerät

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5586216A (en) * 1992-09-25 1996-12-17 Apple Computer, Inc. Recording method and apparatus and audio data user interface
CA2143980A1 (en) * 1994-04-06 1995-10-07 Raziel Haimi-Cohen User display in speech recognition system
JP3267047B2 (ja) * 1994-04-25 2002-03-18 株式会社日立製作所 音声による情報処理装置
JPH1021254A (ja) * 1996-06-28 1998-01-23 Toshiba Corp 音声認識機能付き情報検索装置
US6324507B1 (en) * 1999-02-10 2001-11-27 International Business Machines Corp. Speech recognition enrollment for non-readers and displayless devices
US7444286B2 (en) * 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US20040008222A1 (en) * 2002-07-09 2004-01-15 Silverlynk, Corporation User intuitive easy access computer system
JP2004252652A (ja) * 2003-02-19 2004-09-09 Matsushita Electric Ind Co Ltd 電子機器
JP5008248B2 (ja) * 2003-06-26 2012-08-22 シャープ株式会社 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
JP2005258524A (ja) 2004-03-09 2005-09-22 Nec Corp アプリケーション起動方法及び該方法を用いる携帯端末
WO2006028171A1 (ja) * 2004-09-09 2006-03-16 Pioneer Corporation データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091309A (ja) 1996-09-12 1998-04-10 Toshiba Corp 情報入出力装置及び情報入出力方法
US7069220B2 (en) 1999-08-13 2006-06-27 International Business Machines Corporation Method for determining and maintaining dialog focus in a conversational speech system
US7076425B2 (en) 2001-03-19 2006-07-11 Nissam Motor Co., Ltd. Voice recognition device with larger weights assigned to displayed words of recognition vocabulary
US20030061053A1 (en) 2001-09-27 2003-03-27 Payne Michael J. Method and apparatus for processing inputs into a computing device
US20050055218A1 (en) 2001-10-24 2005-03-10 Julia Luc E. System and method for speech activated navigation
US20030158736A1 (en) 2002-02-15 2003-08-21 Frankie James Voice-controlled data entry
US20040122673A1 (en) 2002-12-11 2004-06-24 Samsung Electronics Co., Ltd Method of and apparatus for managing dialog between user and agent
US20060111906A1 (en) 2004-11-19 2006-05-25 International Business Machines Corporation Enabling voice click in a multimodal page
JP2006208461A (ja) 2005-01-25 2006-08-10 Honda Motor Co Ltd 音声認識型機器制御装置
US20070100636A1 (en) 2005-11-02 2007-05-03 Makoto Hirota Speech recognition apparatus
EP1863015A1 (de) 2006-05-31 2007-12-05 Funai Electric Co., Ltd. Elektronisches Gerät

Also Published As

Publication number Publication date
DE112009001779T5 (de) 2012-01-26
JPWO2010013369A1 (ja) 2012-01-05
WO2010013369A1 (ja) 2010-02-04
US20110178804A1 (en) 2011-07-21
CN102105929B (zh) 2015-08-19
US8818816B2 (en) 2014-08-26
CN102105929A (zh) 2011-06-22

Similar Documents

Publication Publication Date Title
DE112009001779B4 (de) Spracherkennungsvorrichtung
EP0852051B1 (de) Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE60110315T2 (de) Trainieren von akustischen Modellen zur Widerstandsfähigkeit gegen Rauschen
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE60020773T2 (de) Graphische Benutzeroberfläche und Verfahren zur Änderung von Aussprachen in Sprachsynthese und -Erkennungssystemen
JP4867804B2 (ja) 音声認識装置及び会議システム
EP1071075B1 (de) Verfahren und Vorrichtung zur Eingabe von Daten
DE10338512A1 (de) Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen
DE112012006652T5 (de) Spracherkennungsvorrichtung
DE102006006069A1 (de) Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon
DE112008001334T5 (de) Spracherkennungsvorrichtung
DE112012007103T5 (de) Spracherkennungsvorrichtung
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
EP3010014A1 (de) Verfahren zur interpretation von automatischer spracherkennung
DE112008001763T5 (de) Spracherkennungsvorrichtung und Navigationssystem
Howell et al. Facilities to assist people to research into stammered speech
DE112014007288T5 (de) Spracherkennungssystem
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE112021000292T5 (de) Sprachverarbeitungssystem
DE10311581A1 (de) Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen
DE60022269T2 (de) Sprachbasiertes Manipulationsverfahren und -gerät
EP0983906A2 (de) Verfahren und Steuereinrichtung zur Bedienung technischer Einrichtungen eines Fahrzeugs
DE10129005A1 (de) Verfahren zur Spracherkennung und Spracherkennungssystem
JPS6211731B2 (de)

Legal Events

Date Code Title Description
R084 Declaration of willingness to licence
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee