DE60216096T2 - Informationsverarbeitungsvorrichtung und -verfahren und programmprodukt - Google Patents

Informationsverarbeitungsvorrichtung und -verfahren und programmprodukt Download PDF

Info

Publication number
DE60216096T2
DE60216096T2 DE60216096T DE60216096T DE60216096T2 DE 60216096 T2 DE60216096 T2 DE 60216096T2 DE 60216096 T DE60216096 T DE 60216096T DE 60216096 T DE60216096 T DE 60216096T DE 60216096 T2 DE60216096 T2 DE 60216096T2
Authority
DE
Germany
Prior art keywords
input
speech recognition
mask
masks
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60216096T
Other languages
English (en)
Other versions
DE60216096D1 (de
Inventor
Keiichi Kawasaki-shi SAKAI
Tetsuo Yonezawa-shi KOSAKA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of DE60216096D1 publication Critical patent/DE60216096D1/de
Application granted granted Critical
Publication of DE60216096T2 publication Critical patent/DE60216096T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Communication Control (AREA)
  • Debugging And Monitoring (AREA)
  • Digital Computer Display Output (AREA)

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich auf eine Informationsverarbeitungsvorrichtung und ein Informationsverarbeitungsverfahren zum Ausführen eines Prozesses auf der Grundlage eines Betriebsvorgangs, der basierend auf eingegebener Sprache mit Bezug auf eine auf einem Bildschirm angezeigte Eingabemaske ausgeführt wird.
  • STAND DER TECHNIK
  • Wenn Daten wie beispielsweise Text oder dergleichen in Eingabefelder (Eingabeformulare bzw. Eingabemasken) auf einer GUI (graphischen Benutzeroberfläche) eingegeben werden, wird eine Eingabemaske, die eine Eingabe aufnehmen soll, durch ein Auswählen einer Eingabemaske einer Vielzahl von Eingabemasken festgelegt, und daraufhin werden Daten unter Verwendung einer Tastatur eingegeben, oder ein Kandidat einer Vielzahl von auszuwählenden Kandidaten wird unter Verwendung einer Zeigevorrichtung wie beispielsweise einer Maus oder dergleichen ausgewählt, um eine Eingabe auszuführen. Ferner ist bei einem Eingeben von Daten in eine derartige Eingabemaske eine Technik zum Eingeben von Daten mittels Sprache unter Verwendung einer Spracherkennungstechnik vorgeschlagen worden.
  • Gemäß dem vorstehenden Stand der Technik muss jedoch bei einem Eingeben von Daten durch Sprache in einer Eingabemaske eine Eingabemaske, die die Daten aufnehmen soll, unter Verwendung einer Tastatur oder Maus ausgewählt werden. Daher müssen ein Spracheingabebetrieb und ein manueller Eingabebetrieb kombiniert werden, und die Betreibbarkeit ist nicht immer gut.
  • Die US 5,619,708 beschreibt ein System und Verfahren zum Erzeugen und Eingeben von Daten in Eingabemasken. Dieses Dokument lehrt, dass die Eingabemasken in einer Datenstruktur definiert sind, die die Position jeder Maske identifizierende Daten aufweist, die zum Steuern der Anzeige der Masken auf einem Bildschirm verwendet werden. Dieses Dokument lehrt auch, dass der Benutzer eine Maske zur Benutzereingabe durch einen passenden Sprachbefehl, der den Namen der Maske bestimmt, auswählen kann.
  • Das Benutzerhandbuch für "Dragon Naturally Speaking 5" beschreibt die verschiedenen Sprachbefehle, die in der Spracherkennungssoftware Dragon Naturally Speaking erlaubt sind. Verschiedene Sprachbefehle zum Manipulieren von Text in Textverarbeitungsdokumenten sind beschrieben. Das Benutzerhandbuch beschreibt auch Wege, auf denen Eingabemasken durch einen Sprachbefehl ausgewählt werden können. Diese schließen die Erkennung des der Maske zugeordneten Namens oder wo kein Name verfügbar ist die Erkennung von Relativpositionsausdrücken wie beispielsweise nächste oder vorhergehende ein. Bei einem alternativen Aufbau werden die Eingabemasken durch die Dragon-Spracherkennungssoftware nummeriert, so dass der Benutzer daraufhin die gewünschte Eingabemaske durch ein Sprechen der der gewünschten Maske zugeordneten Nummer auswählen kann.
  • OFFENBARUNG DER ERFINDUNG
  • Die vorliegende Erfindung stellt eine Informationsverarbeitungsvorrichtung zum Ausführen eines Prozesses mit Bezug auf eine Vielzahl von in auf einem Bildschirm angezeigten Inhaltsdaten enthaltenen Eingabemasken auf der Grundlage von eingegebener Sprache bereit, wobei die Vorrichtung umfasst:
    eine Speichereinrichtung zum Speichern von jeder Eingabemaske der Vielzahl von Eingabemasken zugeordneten Eingabemaskeninformationen einschließlich eine Position jeder Eingabemaske der Vielzahl von Eingabemasken angebenden ersten Layoutinformationen;
    eine Anzeigebereichshalteeinrichtung zum Halten von zweiten Layoutinformationen eines derzeit auf dem Bildschirm angezeigten Anzeigebereichs;
    eine erste Anzeigesteuerungseinrichtung zum derartigen Steuern, dass zumindest ein Teil der Inhaltsdaten auf dem Bildschirm angezeigt wird;
    eine Spracherkennungseinrichtung zum Erkennen von eingegebener Sprache zum Erzeugen eines Spracherkennungsergebnisses;
    eine Bestimmungseinrichtung zum Bestimmen, ob das Spracherkennungsergebnis einen allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck oder einen einem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist;
    eine erste Auswahleinrichtung zum Auswählen von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und den ersten Layoutinformationen, falls das Spracherkennungsergebnis den allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck aufweist;
    eine zweite Auswahleinrichtung zum Auswählen von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und den zweiten Layoutinformationen für den derzeit angezeigten Teil der Inhaltsdaten, falls das Spracherkennungsergebnis den dem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; und
    eine zweite Anzeigesteuerungseinrichtung zum Steuern eines Anzeigemusters einer den durch die erste oder zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske zum Unterscheiden der ausgewählten Maske von anderen angezeigten Masken.
  • Vorzugsweise weisen die Eingabemaskeninformationen einen Eingabemaskennamen für jede Eingabemaske auf.
  • Vorzugsweise ist die zweite Anzeigesteuerungseinrichtung zum Anzeigen der den durch die erste und zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske in einem zweiten Anzeigemuster, das von einem ersten Anzeigemuster von anderen angezeigten Eingabemasken verschieden ist, betreibbar.
  • Vorzugsweise ist die zweite Anzeigsteuerungseinrichtung zum Anzeigen der den durch die erste oder zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske in dem Zentrum auf dem Bildschirm betreibbar.
  • Vorzugsweise umfasst die Vorrichtung ferner eine Mitteilungseinrichtung zum Mitteilen der Nachricht, wenn eine Auswahl durch die Auswahleinrichtung festgelegt wird.
  • Vorzugsweise ist die Spracherkennungseinrichtung zum Erkennen der eingegebenen Sprache unter Verwendung von zum Erkennen von Sprache zum Bestimmen der Layoutinformationen verwendeten Spracherkennungsgrammatikdaten betreibbar.
  • Vorzugsweise weisen die Spracherkennungsgrammatikdaten zum Erkennen von relative Positionen bzw. Relativpositionen der Eingabemasken angebenden Relativpositionsausdrücken und absolute Positionen bzw. Absolutpositionen der Eingabemasken angebenden Absolutpositionsausdrücken verwendete Daten auf.
  • Vorzugsweise weisen die Spracherkennungsgrammatikdaten zum Erkennen, ob der Absolutpositionsausdruck gesamten Inhalten einschließlich der Eingabemaske oder einem Anzeigebereich auf dem Bildschirm entspricht, verwendete Daten auf.
  • Vorzugsweise weisen die Eingabemaskeninformationen ein die Eingabemaske angebendes Identifizierungskennzeichen auf, wenn die Eingabemaske durch ein Hypertext-Dokument realisiert ist.
  • Vorzugsweise beschreibt das Hypertext-Dokument ein zum Ausführen einer Spracherkennung durch die Spracherkennungseinrichtung verwendetes Identifizierungskennzeichen.
  • Die vorliegende Erfindung stellt auch ein Informationsverarbeitungsverfahren zum Ausführen eines Prozesses mit Bezug auf eine Vielzahl von in auf einem Bildschirm angezeigten Inhaltsdaten enthaltenen Eingabemasken auf der Grundlage von eingegebener Sprache bereit, wobei das Verfahren umfasst:
    einen ersten Anzeigesteuerungsschritt des derartigen Steuerns, dass zumindest ein Teil der Inhaltsdaten auf dem Bildschirm angezeigt wird;
    einen Halteschritt des Haltens von Layoutinformationen des derzeit auf dem Bildschirm angezeigten Anzeigebereichs;
    einen Spracherkennungsschritt des Erkennens von eingegebener Sprache zum Erzeugen eines Spracherkennungsergebnisses;
    Bestimmen, ob das Spracherkennungsergebnis einen allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck oder einen einem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist;
    einen ersten Auswahlschritt des Auswählens von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und auf eine Position jeder Eingabemaske der Vielzahl von Eingabemasken angebenden gespeicherten ersten Layoutinformationen, falls das Spracherkennungsergebnis den allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck aufweist;
    einen zweiten Auswahlschritt des Auswählens von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und auf gespeicherten zweiten Layoutinformationen eines derzeit auf dem Bildschirm angezeigten Anzeigebereichs, falls das Spracherkennungsergebnis den dem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; und
    einen zweiten Anzeigesteuerungsschritt des Steuerns eines Anzeigemusters einer den in dem ersten oder zweiten Auswahlschritt ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske zum Unterscheiden der ausgewählten Maske von anderen angezeigten Masken.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • 1 zeigt ein Blockschaltbild, das ein Beispiel für den Hardwareaufbau einer Informationsverarbeitungsvorrichtung gemäß jedem Ausführungsbeispiel der vorliegenden Erfindung darstellt;
  • 2 zeigt ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung gemäß einem ersten veranschaulichenden Beispiel;
  • 3 zeigt ein Beispiel für eine Eingabemaskeninformationstabelle bei dem ersten veranschaulichenden Beispiel;
  • 4 zeigt das Format einer Erkennungsgrammatik bei dem ersten veranschaulichenden Beispiel;
  • 5 zeigt ein Flussdiagramm, das einen durch die Informationsverarbeitungsvorrichtung des ersten veranschaulichenden Beispiels ausgeführten Prozess darstellt;
  • 6 zeigt ein Beispiel für eine GUI bei dem ersten veranschaulichenden Beispiel;
  • 7 zeigt ein Beispiel für eine GUI bei dem ersten veranschaulichenden Beispiel;
  • 8 zeigt ein Beispiel für eine GUI bei dem ersten veranschaulichenden Beispiel;
  • 9 zeigt ein Beispiel für eine GUI bei dem ersten veranschaulichenden Beispiel;
  • 10 zeigt ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung gemäß einem zweiten veranschaulichenden Beispiel;
  • 11 zeigt ein Beispiel für eine Eingabemaskeninformationstabelle bei dem zweiten veranschaulichenden Beispiel;
  • 12 zeigt ein Flussdiagramm, das einen durch die Informationsverarbeitungsvorrichtung des zweiten veranschaulichenden Beispiels ausgeführten Prozess darstellt;
  • 13 zeigt ein Beispiel für eine GUI bei dem zweiten veranschaulichenden Beispiel;
  • 14 zeigt ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung gemäß einem dritten veranschaulichenden Beispiel;
  • 15 zeigt ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung gemäß einem zweiten Ausführungsbeispiel der vorliegenden Erfindung;
  • 16 zeigt ein Flussdiagramm, das einen durch die Informationsverarbeitungsvorrichtung des zweiten Ausführungsbeispiels der vorliegenden Erfindung ausgeführten Prozess darstellt;
  • 17 zeigt ein Beispiel für eine Eingabemaskeninformationstabelle gemäß einem vierten veranschaulichenden Beispiel; und
  • 18 zeigt ein Beispiel für ein zum Ausführen einer Spracherkennung unter Verwendung einer Dokumentauszeichnungssprache verwendetes Identifizierungskennzeichen gemäß einem fünften veranschaulichenden Beispiel.
  • 1 zeigt ein Blockschaltbild, das ein Beispiel für den Hardwareaufbau einer Informationsverarbeitungsvorrichtung gemäß jedem Ausführungsbeispiel der vorliegenden Erfindung darstellt.
  • Bei der Informationsverarbeitungsvorrichtung bezeichnet ein Bezugszeichen 1 eine Anzeigevorrichtung zum Anzeigen einer GUI. Ein Bezugszeichen 2 bezeichnet eine Zentraleinheit wie beispielsweise eine CPU oder dergleichen zum Ausführen von Prozessen einschließlich einer numerischen arithmetischen Betriebssteuerung und dergleichen. Ein Bezugszeichen 3 bezeichnet eine Speichervorrichtung zum Speichern von Zeitdaten und einem zum Verarbeiten von Abfolgen und Prozessen von nachstehend zu beschreibenden jeweiligen Ausführungsbeispielen erforderlichen Programm oder Speichern von verschiedenen Daten wie beispielsweise Spracherkennungsgrammatikdaten, einem Sprachmodell und dergleichen. Diese Speichervorrichtung 3 umfasst eine externe Speichervorrichtung wie beispielsweise eine Plattenvorrichtung oder dergleichen oder eine interne Speichervorrichtung wie beispielsweise ein RAM, ROM oder dergleichen.
  • Ein Bezugszeichen 5 bezeichnet ein Mikrofon zum Eingeben von durch den Benutzer hervorgebrachter bzw. geäußerter Sprache. Ein Bezugszeichen 4 bezeichnet einen A/D-Wandler zum Wandeln von über das Mikrofon 5 eingegebenen Sprachdaten von einem analogen Signal in ein digitales Signal. Ein Bezugszeichen 6 bezeichnet eine Kommunikationsvorrichtung, die Daten über ein Netz mit einer externen Vorrichtung wie beispielsweise einem Web-Server oder dergleichen austauscht. Ein Bezugszeichen 7 bezeichnet einen Bus zum gegenseitigen Verbinden von verschiedenen Aufbaukomponenten der Informationsverarbeitungsvorrichtung.
  • ERSTES VERANSCHAULICHENDES BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
  • 2 zeigt ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung gemäß einem ersten veranschaulichenden Beispiel.
  • Ein Bezugszeichen 101 bezeichnet eine Inhaltshalteeinheit zum Halten von auf einer GUI anzuzeigenden Inhalten, die durch ein unter Verwendung einer Beschreibungssprache (zum Beispiel einer Dokumentauszeichnungssprache eines HTML-Dokuments oder dergleichen) beschriebenes Hypertext-Dokument realisiert wird. Ein Bezugszeichen 102 bezeichnet eine GUI-Anzeigeeinheit wie beispielsweise einen Browser zum Anzeigen der in der Inhaltshalteeinheit 101 gehaltenen Inhalte auf der GUI. Ein Bezugszeichen 103 bezeichnet eine Fokushalteeinheit zum Halten einer auf verschiedene auf der GUI-Anzeigeeinheit 102 angezeigte Inhalte fokussierten Eingabemaske. Ein Bezugszeichen 104 bezeichnet eine Maskennamenerzeugungseinheit zum Extrahieren von Eingabemaskennamen (Schreibweisen) bei den auf der GUI-Anzeigeeinheit 102 angezeigten Inhalten und Angeben ihrer Aussprachen. Die durch die Maskennamenerzeugungseinheit 104 erzeugten Eingabemaskennamen und Aussprachen werden in einer Maskennamenhalteeinheit 105 gehalten. Darüber hinaus werden die Aussprachen als Bewegungserkennungsgrammatikdaten verwendet, und die Eingabemaskennamen und Aussprachen werden in einer Erkennungsgrammatik 106 gehalten.
  • 3 zeigt ein Beispiel für eine Eingabemaskeninformationstabelle, die Eingabemaskennamen (Schreibweisen) und Wörterbuchaussprachen in Entsprechung zueinander speichert, um Eingabemasken zugeordnete Informationen zu verwalten. In 3 sind die für die Eingabemaskeninformationstabelle verwendeten Wörterbuchaussprachen lediglich veranschaulichend, und ein anderer Typ von Aussprachen kann für die Eingabemaskeninformationstabelle verwendet werden.
  • 4 zeigt das Format der Erkennungsgrammatik 106.
  • Wie in 4 gezeigt umfasst die Erkennungsgrammatik 106 drei Arten von Spracherkennungsgrammatikdaten einschließlich zum Auswählen einer zu fokussierenden Eingabemaske durch eingegebene Sprache verwendeten Bewegungserkennungsgrammatikdaten, Betriebssteuerungserkennungsgrammatikdaten für verschiedene Betriebsvorgänge wie beispielsweise eine Antwort auf eine Bestätigung für den Benutzer, eine Hilfsanforderung und dergleichen und zum Erkennen von durch Sprache in eine Eingabemaske eingegebenen Inhalten verwendete Feldwerterkennungsgrammatikdaten. Diese Spracherkennungsgrammatikdaten können in einer einzelnen Datei kombiniert sein oder können unabhängige Dateien bilden.
  • Es ist zu beachten, dass die Spracherkennungsgrammatikdaten diejenigen einschließen können, die normalerweise bei einer Spracherkennung verwendet werden, wie beispielsweise eine Wortliste, die Schreibweisen und Aussprachen von Wörtern in dem Fall der Einzelwortspracherkennung beschreibt, eine auf einer CFG (kontextfreien Grammatik) basierende Netzgrammatik und dergleichen.
  • Eine Beschreibung wird auf 2 zurückkommen.
  • Ein Bezugszeichen 107 bezeichnet eine Spracheingabeeinheit, die das Mikrofon 5 und den A/D-Wandler 4 zum A/D-Wandeln von über das Mikrofon 5 eingegebenen Sprachdaten umfasst. Ein Bezugszeichen 108 bezeichnet eine Spracherkennungseinheit zum Auslesen der in der Erkennungsgrammatik 106 erhaltenen Spracherkennungsgrammatikdaten und Ausführen einer Spracherkennung eines von der Spracheingabeeinheit 107 eingegebenen digitalen Signals. Ein Bezugszeichen 109 bezeichnet eine Fokuspositionsänderungseinheit zum Ändern der auf der GUI-Anzeigeeinheit 102 unter Bezugnahme auf die Fokushalteeinheit 103 angezeigten Fokusposition, wenn das Spracherkennungsergebnis der Spracherkennungseinheit 108 einen gegebenen Eingabemaskennamen angibt.
  • Der durch die Informationsverarbeitungsvorrichtung des ersten veranschaulichenden Beispiels auszuführende Prozess wird nachstehend unter Verwendung von 5 beschrieben.
  • 5 zeigt ein Flussdiagramm, das den durch die Informationsverarbeitungsvorrichtung des ersten veranschaulichenden Beispiels auszuführenden Prozess darstellt.
  • Es ist zu beachten, dass die Betriebsvorgänge von jeweiligen Schritten in dem Flussdiagramm gemäß 5 zum Beispiel als ein Programm in der Speichervorrichtung 3 gespeichert sind und die Zentraleinheit 2 das Programm ausliest und ausführt.
  • In einem Schritt S1 zeigt die GUI-Anzeigeeinheit 102 eine GUI einschließlich einer Vielzahl von auf der Anzeigevorrichtung 1 anzuzeigenden Eingabemasken an. Die GUI kann durch ein Laden und Anzeigen von externen Daten wie beispielsweise HTML-Daten, die in einer Dokumentaufzeichnungssprache beschrieben sind, angezeigt werden oder kann nur durch ein ausschließlich zugeordnetes Programm angezeigt werden.
  • Ein Beispiel für die GUI wird nachstehend unter Verwendung von 6 beschrieben.
  • 6 zeigt ein Beispiel für eine GUI einschließlich einer Vielzahl von auf der Anzeigevorrichtung 1 anzuzeigenden Eingabemasken. Diese GUI unterstellt eine Registrierungs-GUI (Eingabe/Änderungs-GUI) von persönlichen Registrierungsdaten als Benutzerinformationen, die zu einem gegebenen Benutzer gehören, und rechteckige Rahmen in 6 sind jeweils verschiedene Eingabemasken. Eine Eingabemaske 6 wird zum Beispiel zum Eingeben einer ID-Nummer als Zeichenfolgendaten verwendet. Ferner werden Eingabemasken 7, 9 bis 13 und 15 bis 22 zum Eingeben von verschiedenen Zeichenfolgendaten verwendet. Eingabemasken 8 und 14 sind zum Auswählen von gewünschten Wahldaten aus den im Voraus vorbereiteten (männlich, weiblich, Geschäftsmann und dergleichen) verwendete Eingabemasken des Radioschaltertyps. Eine Schaltfläche 23 wird zum Unterbreiten bzw. Einreichen von in verschiedene Eingabemasken auf der GUI eingegebenen verschiedenen Daten bei zum Beispiel einer Anwendung verwendet.
  • Wenn diese Eingabemasken auf der Anzeigevorrichtung 1 angezeigt werden, erzeugt die Maskennamenerzeugungseinheit 103 ihre Eingabemaskennamen und Aussprachen, die als eine Eingabemaskeninformationstabelle in der Maskennamenhalteeinheit 104 und Erkennungsgrammatik 106 gespeichert werden wie vorstehend beschrieben.
  • In dem Fall eines GUI-Anzeigesystems des Server-Client-Typs einschließlich eines Web-Servers und eines Clients, der einen Web-Browser installiert, kann der Prozess zum Erzeugen der Eingabemaskennamen, der durch die Maskennamenerzeugungseinheit 103 ausgeführt wird, auf der Web-Server-Seite im Voraus für jeweilige Inhalte ausgeführt werden oder kann auf der Client-Seite dynamisch bei dem Web-Browser ausgeführt werden.
  • Bei dem ersten veranschaulichenden Beispiel wird eine Eingabemaske, die Daten aufnehmen soll, (auf die im Folgenden auch als eine fokussierte Eingabemaske Bezug genommen ist) durch die gestrichelte Linie (das erste Anzeigemuster) angegeben, und eine nicht fokussierte Eingabemaske wird durch die durchgezogene Linie (das zweite Anzeigemuster) angegeben. 6 dient als Beispiel für einen Fall, in dem die Eingabemaske 6 fokussiert ist.
  • Die in 6 gezeigte Registrierungs-GUI von persönlichen Registrierungsdaten ist ein Beispiel zum Erläutern eines Falls, in dem die persönlichen Registrierungsdaten zu ändern sind, und es wird angenommen, dass vor der Änderung bereits persönliche Registrierungsdaten vorhanden sind. Bei einem Ändern der persönlichen Registrierungsdaten werden dann, wenn der Benutzer die ID-Nummer (zum Beispiel 1234) in die Eingabemaske 6 eingibt und die Einreichungsschaltfläche 23 betätigt wie in 7 gezeigt, der ID-Nummer entsprechende derzeit registrierte persönliche Registrierungsdaten angezeigt, und es wird zum Beispiel die Eingabemaske 9 fokussiert.
  • Die Beschreibung wird auf 5 zurückkommen.
  • In einem Schritt S2 liest die Spracherkennungseinheit 108 verschiedene Spracherkennungsgrammatikdaten aus der in der Speichervorrichtung 3 gespeicherten Erkennungsgrammatik 106 aus. Wie vorstehend beschrieben schließen die Spracherkennungsgrammatikdaten die zum Auswählen einer zu fokussierenden Eingabemaske durch eingegebene Sprache verwendeten Bewegungserkennungsgrammatikdaten, Betriebssteuerungserkennungsgrammatikdaten und zum Erkennen von in die derzeit fokussierte Eingabemaske eingegebener Sprache verwendete Feldwerterkennungsgrammatikdaten ein.
  • In einem Schritt S3 beginnt die Spracheingabeeinheit 107, Sprache einzugeben. Durch den Benutzer geäußerte Sprache wird durch das Mikrofon 5 in ein elektrisches Signal gewandelt, und das elektrische Signal wird durch den A/D-Wandler 4 weiter in ein digitales Signal (Sprachdaten) gewandelt. In einem Schritt S4 führt die Spracherkennungseinheit 108 eine Spracherkennung der eingegebenen Sprachdaten unter Verwendung der gelesenen verschiedenen Spracherkennungsgrammatikdaten aus. In diesem Fall wird die Spracherkennung unter Verwendung der Bewegungserkennungsgrammatikdaten bzw. Feldwerterkennungsgrammatikdaten ausgeführt. Da diese beiden Spracherkennungsgrammatikdaten verwendet werden, werden Spracherkennungsergebnisse aus den jeweiligen Spracherkennungsgrammatikdaten erhalten. Diese Ergebnisse werden unter Verwendung von numerischen Werten wie beispielsweise Wahrscheinlichkeitsniveaus, die die Grade der Sicherheit der Spracherkennung angeben, verglichen, und das Spracherkennungsergebnis mit einem höheren Grad der Sicherheit wird als ein endgültiges Spracherkennungsergebnis ausgewählt.
  • Es wird in einem Schritt S5 bestimmt, ob das Spracherkennungsergebnis eine Auswahl einer Eingabemaske ist. Das heißt, es wird bestimmt, ob die unter Verwendung der Bewegungserkennungsgrammatikdaten erhaltene Wahrscheinlichkeit des Spracherkennungsergebnisses höher als die des unter Verwendung der Feldwerterkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses ist oder nicht. Falls das Spracherkennungsergebnis nicht eine Auswahl einer Eingabemaske ist (NEIN in dem Schritt S5), rückt der Ablauf zu einem Schritt S8 vor, um das Spracherkennungsergebnis der in die fokussierte Eingabemaske eingegebenen Sprachdaten anzuzeigen. Da dieser Prozess der gleiche wie bei dem Stand der Technik ist, wird eine Beschreibung davon weggelassen. Falls demgegenüber das Spracherkennungsergebnis eine Auswahl einer Eingabemaske ist (JA in dem Schritt S5), rückt der Ablauf zu einem Schritt S6 vor.
  • In dem Schritt S6 wird eine dem Spracherkennungsergebnis (Eingabemaskennamen) entsprechende Eingabemaske ausgewählt. Falls zum Beispiel ein Eingabemaskenname "Zugehörigkeit" oder "Adresse" als das Spracherkennungsergebnis erhalten wird, rückt der Ablauf von dem Schritt S5 zu diesem Schritt S6 vor, und eine Eingabemaske, die zu dem dem Spracherkennungsergebnis entsprechenden Eingabemaskennamen passt, wird bestimmt. 9 zeigt ein Beispiel für eine GUI auf der Anzeigevorrichtung 1, wenn das Spracherkennungsergebnis "Zugehörigkeit" ist.
  • In einem Schritt S7 wird ein Auswahlbestätigungsbetriebsvorgang ausgeführt. Dies ist ein Bestätigungsprozess zum Darstellen der ausgewählten Eingabemaske für den Benutzer. Es wird zum Beispiel eine Anzeigesteuerung zum Ändern des Anzeigemusters der ausgewählten Eingabemaske derart, dass sie von anderen nicht ausgewählten Eingabemasken unterschieden wird, durch ein Aufblitzenlassen der Eingabemaske (ein Ändern der Farbe der Maske für eine vorbestimmte Zeitdauer) oder dergleichen ausgeführt, oder es wird eine Anzeigesteuerung zum Scrollen eines Fensters zum Verlegen der ausgewählten Eingabemaske in das Zentrum des Fensters oder dergleichen ausgeführt. Darüber hinaus kann ein Piepton produziert werden, um anzugeben, dass die Eingabemaske ausgewählt ist.
  • Wie vorstehend beschrieben kann gemäß dem ersten veranschaulichenden Beispiel dann, wenn der Benutzer einen Eingabemaskennamen geäußert hat, eine dem durch eine Spracherkennung der Äußerung erhaltenen Spracherkennungsergebnis entsprechende Eingabemaske als ein Eingabeziel von Daten ausgewählt werden. Auf diese Weise braucht der Benutzer nicht eine Eingabemaske unter Verwendung einer Tastatur, einer Maus oder dergleichen manuell auszuwählen und kann eine Eingabemaske und Eingabedaten mit Bezug auf die GUI nur durch eingegebene Sprache auswählen, so dass die GUI-Betreibbarkeit im Vergleich zu dem Stand der Technik verbessert wird.
  • ZWEITES VERANSCHAULICHENDES BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
  • Bei dem ersten veranschaulichenden Beispiel wird dann, wenn der Benutzer einen Eingabemaskennamen geäußert hat, eine Eingabemaske als ein Eingabeziel von Daten basierend auf dem durch eine Spracherkennung der Sprache erhaltenen Spracherkennungsergebnis ausgewählt. Ferner kann dann, wenn der Benutzer einen eine Relativposition einer Eingabemaske, zum Beispiel "dritte obere" oder "zweite untere", angebenden Relativpositionsausdruck geäußert hat, eine Eingabemaske als ein Eingabeziel von Daten basierend auf dem durch eine Spracherkennung der Sprache erhaltenen Spracherkennungsergebnis ausgewählt werden.
  • Der Funktionsaufbau der Informationsverarbeitungsvorrichtung gemäß einem derartigen Aufbau ist in 10 gezeigt.
  • 10 zeigt ein Funktionsblockschaltbild der Informationsverarbeitungsvorrichtung gemäß dem zweiten veranschaulichenden Beispiel.
  • Mit Bezug auf 10 weist die Vorrichtung zusätzlich zu der Inhaltshalteeinheit 101, der GUI-Anzeigeeinheit 102, der Erkennungsgrammatik 106, der Spracheingabeeinheit 107 und der Spracherkennungseinheit 108 in 2 des ersten veranschaulichenden Beispiels eine Fokuspositionsänderungseinheit 109 zum Ändern der Fokusposition, wenn der Benutzer den Relativpositionsausdruck geäußert hat, eine Fokuspositionshalteeinheit 111 zum Halten der Position der derzeit fokussierten Eingabemaske, eine Layoutbeziehungserzeugungseinheit 112 zum Erzeugen von Eingabemaskennamen und ihre Position angebenden Layoutinformationen, eine Layoutbeziehungshalteeinheit 113 zum Halten der durch die Layoutbeziehungserzeugungseinheit 112 gehaltenen Eingabemaskennamen und Layoutinformationen und eine Relativpositionsbestimmungseinheit 114 zum Bestimmen, ob die geäußerten Inhalte der Relativpositionsausdruck sind, auf.
  • Die durch die Layoutbeziehungserzeugungseinheit 112 erzeugten Eingabemaskennamen und Layoutinformationen werden als eine Eingabemaskeninformationstabelle in der Speichervorrichtung 3 gespeichert. 11 zeigt ein Beispiel für die Tabelle, die als eine Eingabemaskeninformationstabelle verwaltet wird, die die Eingabemaskennamen und Layoutinformationen (zum Beispiel eine vertikale Positionskoordinate und eine horizontale Positionskoordinate, wenn die obere linke Ecke auf der GUI als ein Ursprung definiert ist) in Entsprechung zueinander speichert. Diese Eingabemaskeninformationstabelle wird durch ein Analysieren von Inhalten bei einem Anzeigen der Inhalte erzeugt. Wenn Inhalte von einer externen Vorrichtung wie beispielsweise einem Web-Server oder dergleichen über ein Netz geliefert werden, kann die Eingabemaskeninformationstabelle im Voraus auf der Inhaltsanbieterseite erzeugt werden und kann synchron zu einer Einreichung der Inhalte eingereicht werden. Darüber hinaus kann in dem Fall eines GUI-Anzeigesystems des Server-Client-Typs einschließlich eines Web-Servers und eines Clients, der einen Web-Browser installiert, der Prozess zum Erzeugen der Eingabemaskennamen und Layoutinformationen, der durch die Layoutbeziehungserzeugungseinheit 112 ausgeführt wird, auf der Web-Server-Seite im Voraus für jeweilige Inhalte ausgeführt werden oder kann auf der Client-Seite dynamisch bei dem Web-Browser ausgeführt werden.
  • Bei dem zweiten veranschaulichenden Beispiel enthalten die Bewegungserkennungsgrammatikdaten in der Erkennungsgrammatik 106 in 11 zum Ausführen einer Spracherkennung des Relativpositionsausdrucks erforderliche Daten, und es werden zum Erkennen von zum Beispiel Bezugszeichen, "te", "obere", "untere", "rechte", "linke", "von" und dergleichen verwendete Daten verwaltet.
  • Der durch die Informationsverarbeitungsvorrichtung des zweiten veranschaulichenden Beispiels auszuführende Prozess wird nachstehend unter Verwendung von 12 erläutert.
  • 12 zeigt ein Flussdiagramm, das den durch die Informationsverarbeitungsvorrichtung des zweiten veranschaulichenden Beispiels auszuführenden Prozess darstellt.
  • Es ist zu beachten, dass 12 nur von dem Flussdiagramm gemäß 5 des ersten veranschaulichenden Beispiels abweichende Abschnitte darstellt.
  • Wenn die Spracherkennungseinheit 108 in dem Schritt S4 eine Spracherkennung der eingegebenen Sprachdaten unter Bezugnahme auf die gelesene Erkennungsgrammatik 106 ausführt, bestimmt die Relativpositionsbestimmungseinheit 114 in einem Schritt S70, ob das Spracherkennungsergebnis ein Relativpositionsausdruck ist. Das heißt, es wird bestimmt, ob die Wahrscheinlichkeit des unter Verwendung der Bewegungserkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses höher als die des unter Verwendung der Feldwerterkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses ist. Besonders dann, wenn die Wahrscheinlichkeit des unter Verwendung der Bewegungserkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses höher als die des unter Verwendung anderer Spracherkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses ist, wird es bestimmt, dass das Spracherkennungsergebnis ein Relativpositionsausdruck ist.
  • Falls es in einem Schritt S71 bestimmt wird, dass das Spracherkennungsergebnis nicht ein Relativpositionsausdruck ist (NEIN in dem Schritt S70), rückt der Ablauf zu dem Schritt S8 vor. Falls demgegenüber das Spracherkennungsergebnis ein Relativpositionsausdruck ist (JA in dem Schritt S70), rückt der Ablauf zu dem Schritt S71 vor, und die Fokuspositionsänderungseinheit 109 bestimmt eine durch den Relativpositionsausdruck bezeichnete Eingabemaske. In diesem Fall wird die Eingabemaske unter Verwendung der Layoutinformationen der derzeit fokussierten Eingabemaske, der Layoutbeziehungshalteeinheit 113 und des Spracherkennungsergebnisses des Relativpositionsausdrucks bestimmt.
  • Falls zum Beispiel die derzeit fokussierte Eingabemaske eine Eingabemaske 16 (9) ist, hält die Fokuspositionshalteeinheit 111 Layoutinformationen (8, 1) (11) des entsprechenden Eingabemaskennamens "Zugehörigkeit". Falls das Spracherkennungsergebnis von durch den Benutzer geäußerter Sprache "dritte obere" ist, wird auf der Grundlage der Eingabemaskeninformationstabelle in 11 (5, 1) als das Bewegungsziel der Fokusposition bestimmt. Auf diese Weise werden die in der Fokuspositionshalteeinheit 111 gehaltenen Layoutinformationen zu (5, 1) aktualisiert. Folglich wird wie in 13 gezeigt die Fokusposition von der Eingabemaske 16 zu einer Eingabemaske 12 geändert.
  • Wie vorstehend beschrieben kann gemäß dem zweiten veranschaulichenden Beispiel dann, wenn der Benutzer einen Relativpositionsausdruck, der die Relativposition einer Eingabemaske angibt, geäußert hat, eine dem durch eine Spracherkennung der Äußerung erhaltenen Spracherkennungsergebnis entsprechende Eingabemaske als ein Eingabeziel von Daten ausgewählt werden. Auf diese Art und Weise braucht der Benutzer nicht eine Eingabemaske unter Verwendung einer Tastatur, einer Maus oder dergleichen manuell auszuwählen und kann eine Eingabemaske und Eingabedaten mit Bezug auf die GUI nur durch eingegebene Sprache auswählen, so dass die GUI-Betreibbarkeit im Vergleich zu dem Stand der Technik verbessert wird. Der Benutzer kann eine Eingabemaske durch einen einfacheren Sprachausdruck als bei dem ersten veranschaulichenden Beispiel ohne ein Äußern eines Eingabemaskennamens auswählen, und es kann eine flexible und genaue Eingabemaskenauswahl mittels eingegebener Sprache realisiert werden.
  • DRITTES VERANSCHAULICHENDES BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
  • Bei dem zweiten veranschaulichenden Beispiel wird eine Eingabemaske durch den Relativpositionsausdruck ausgewählt. Eine Eingabemaske kann zum Beispiel auch durch einen eine Absolutposition wie beispielsweise "fünfte von oben" oder "zweite von unten" angebenden Absolutpositionsausdruck, der durch den Benutzer geäußert wird, ausgewählt werden.
  • Der Funktionsaufbau der Informationsverarbeitungsvorrichtung gemäß einem derartigen Aufbau ist in 14 gezeigt.
  • 14 zeigt ein Funktionsblockschaltbild der Informationsverarbeitungsvorrichtung gemäß dem dritten veranschaulichenden Beispiel.
  • Mit Bezug auf 14 umfasst die Vorrichtung zusätzlich zu der Inhaltshalteeinheit 101, der GUI-Anzeigeeinheit 102, der Erkennungsgrammatik 106, der Spracheingabeeinheit 107 und der Spracherkennungseinheit 108 in 2 des ersten veranschaulichenden Beispiels und der Fokuspositionsänderungseinheit 109, der Layoutbeziehungserzeugungseinheit 112 und der Layoutbeziehungshalteeinheit 113 in 10 des zweiten veranschaulichenden Beispiels eine Absolutpositionsbestimmungseinheit 121 und eine Anzeigebereichshalteeinheit 122. Die Absolutpositionsbestimmungseinheit 121 realisiert eine Funktion ähnlich der der Relativpositionsbestimmungseinheit 114 in 10 und bestimmt, ob die geäußerten Inhalte ein Absolutpositionsausdruck sind. Es ist zu beachten, dass die Einzelheiten der Anzeigebereichshalteeinheit 122 nachstehend als ein erstes Ausführungsbeispiel der Erfindung erläutert werden. Die Bewegungserkennungsgrammatikdaten in der Erkennungsgrammatik 106 enthalten zum Ausführen einer Spracherkennung des Absolutpositionsausdrucks erforderliche Daten, und zum Erkennen von "von oben", "von unten", "von rechts", "von links", Bezugszeichen, "te" und dergleichen verwendete Daten werden verwaltet.
  • Der durch die Informationsverarbeitungsvorrichtung des dritten veranschaulichenden Beispiels auszuführende Prozess ist eine Anwendung des durch die Informationsverarbeitungsvorrichtung des ersten veranschaulichenden Beispiels ausgeführten Prozesses. Insbesondere wird in dem Prozess in dem Schritt S6 des Flussdiagramms in 5 des ersten veranschaulichenden Beispiels durch den Benutzer geäußerte Sprache erkannt, und die Absolutpositionsbestimmungseinheit 121 wählt eine zu fokussierende Eingabemaske unter Bezugnahme auf die Eingabemaskeninformationstabelle in 11 aus. Wenn der Benutzer zum Beispiel "zweite von unten" geäußert hat, wird eine Eingabemaske einer Telefonnummer mit der vertikalen Position = 10 ausgewählt, da der maximale Wert der vertikalen Position der Eingabemaskeninformationstabelle in 11 11 ist, und die Fokusposition wird zu der Position bewegt. Danach rückt der Ablauf zu dem Schritt S7 vor.
  • Wie vorstehend beschrieben kann gemäß dem dritten veranschaulichenden Beispiel eine Eingabemaske durch den Absolutpositionsausdruck anstelle des Relativpositionsausdrucks ausgewählt werden, und eine flexiblere genaue Eingabemaskenauswahl mittels eingegebener Sprache als bei dem zweiten veranschaulichenden Beispiel kann realisiert werden.
  • <Ausführungsbeispiel 1>
  • Wenn Inhalte in einer Fensteranwendung wie beispielsweise einem Browser oder dergleichen oder auf einer tragbaren Vorrichtung mit einem knappen Anzeigebereich durchsucht werden, kann die GUI-Anzeigeeinheit 102 Inhalte nur teilweise anzeigen, und der Benutzer muss die zu durchsuchenden Inhalte unter Verwendung einer Zeigevorrichtung wie beispielsweise einer Maus oder dergleichen in dem Anzeigefenster scrollen. Wenn der Benutzer zum Beispiel "dritte von oben" geäußert hat, fokussiert die Vorrichtung bei jedem der veranschaulichenden Beispiele auf der dritten Maske von oben in dem Bereich der gesamten Inhalte, aber die Vorrichtung kann zum Beispiel auf der dritten Maske in dem Anzeigebereich der Inhalte in dem Anzeigefenster fokussieren.
  • In einem derartigen Fall kann die Anzeigebereichshalteeinheit 122 in 14 Layoutinformationen des derzeit auf der GUI-Anzeigeeinheit 102 angezeigten Anzeigebereichs halten, und die Absolutpositionsbestimmungseinheit 121 kann in dem Prozess in dem Schritt S6 in 5 die Absolutposition in dem Anzeigebereich bestimmen.
  • Wenn der Benutzer einen Absolutpositionsausdruck in dem Anzeigebereich oder den für die gesamten Inhalte explizit geäußert hat, kann jeder Ausdruck unterschieden werden, und ein entsprechender Betrieb kann ausgeführt werden. In diesem Fall enthalten die Bewegungserkennungsgrammatikdaten in der Erkennungsgrammatik 106 in 14 zum Ausführen einer Spracherkennung dieser Absolutpositionsausdrücke erforderliche Daten, und zum Verwalten von zum Beispiel "gesamt", "in Anzeigebereich" und dergleichen verwendete Daten werden zusätzlich zu den bei dem dritten veranschaulichenden Beispiel beschriebenen verwaltet.
  • In diesem Fall kann die Absolutposition der gesamten Inhalte oder die in dem Anzeigebereich in der Anzeigebereichshalteeinheit 122 basierend auf dem Spracherkennungsergebnis bestimmt werden, falls der Benutzer so etwas wie "dritte von oben der gesamten" oder "dritte von oben in Anzeigebereich" bezeichnet hat.
  • Wenn eine die Absolutposition der gesamten Inhalte oder die in dem Anzeigebereich angebende Bezeichnung weggelassen wird, tritt eine Mehrdeutigkeit auf. In einem derartigen Fall kann jede dieser Absolutpositionen als ein vorgeschriebener Wert festgelegt werden, oder die Absolutposition kann dynamisch zu der vorher bezeichneten Position geändert werden. Wenn die Absolutposition dynamisch geändert wird, können Bezeichnungsinformationen zum Auswählen jeder Absolutposition in der Anzeigebereichshalteeinheit 122 gehalten werden.
  • Der durch die Informationsverarbeitungsvorrichtung des Ausführungsbeispiels 1 auszuführende Prozess ist eine Anwendung des durch die Informationsverarbeitungsvorrichtung des ersten veranschaulichenden Beispiels ausgeführten Prozesses. Insbesondere in dem Prozess in dem Schritt S6 des Flussdiagramms in 5 des ersten veranschaulichenden Beispiels hält die Anzeigebereichshalteeinheit 122 zum Beispiel eine obere linke Position (3, 1) und untere rechte Position (9, 2) als Layoutinformationen des Anzeigebereichs, falls Eingabemasken 9 bis 18 der Inhalte in 6 auf der GUI-Anzeigeeinheit 102 angezeigt werden.
  • Wenn der Benutzer "zweite von unten" geäußert hat und besonders dann, wenn die Anzeigebereichshalteeinheit 122 zum Übernehmen des Anzeigebereichs als eine Vorgabe eingestellt ist, bestimmt die Absolutpositionsbestimmungseinheit 121 unter Bezugnahme auf die Anzeigebereichshalteeinheit 122 und die Eingabemaskeninformationstabelle in 11 Layoutinformationen (8, 1) des Eingabemaskennamens "Zugehörigkeit" als die zweite Eingabemaske von unten in dem Anzeigebereich und bewegt die Fokusposition zu der Position. Wenn demgegenüber die Anzeigebereichshalteeinheit 122 zum Übernehmen der gesamten Inhalte als eine Vorgabe eingestellt ist, bestimmt die Absolutpositionsbestimmungseinheit 121 Layoutinformationen (10, 1) des Eingabemaskennamens "Telefonnummer" als die zweite Eingabemaske von unten der gesamten Inhalte und bewegt die Fokusposition zu der Position.
  • Wie vorstehend beschrieben wird gemäß dem Ausführungsbeispiel 1 der Absolutpositionsausdruck der gesamten Inhalte/Absolutpositionsausdruck in dem Anzeigebereich explizit oder automatisch durch Sprache eingegeben, und eine Eingabemaske kann durch die eingegebene Sprache ausgewählt werden. Zusätzlich zu den bei dem dritten veranschaulichenden Beispiel beschriebenen Wirkungen kann eine flexiblere, genaue Eingabemaskenauswahl mittels eingegebener Sprache gemäß dem angezeigten Anzeigebereich realisiert werden.
  • <Ausführungsbeispiel 2>
  • Bei den vorstehenden veranschaulichenden Beispielen 1 bis 3 und dem Ausführungsbeispiel 1 werden als die Bewegungserkennungsgrammatikdaten nur zum Realisieren jedes Ausführungsbeispiels erforderliche Daten verwaltet. Alternativ können die Bewegungserkennungsgrammatikdaten derart konfiguriert sein, um zum Auswählen einer Eingabemaske durch den Eingabemaskennamen, den Relativpositionsausdruck oder den Absolutpositionsausdruck imstande zu sein.
  • Der Funktionsaufbau der Informationsverarbeitungsvorrichtung gemäß einem derartigen Ausführungsbeispiel ist in 15 gezeigt.
  • 15 zeigt ein Funktionsblockschaltbild der Informationsverarbeitungsvorrichtung gemäß dem Ausführungsbeispiel 2 der vorliegenden Erfindung.
  • Mit Bezug auf 15 weist die Vorrichtung zusätzlich zu den jeweiligen Aufbaukomponenten gemäß 2, 10 und 14 der veranschaulichenden Beispiele 1 bis 3 und des Ausführungsbeispiels 1 eine Positionsauswahlverfahrensbestimmungseinheit 151 zum Bestimmen des Typs (Eingabemaskenname, Relativpositionsausdruck und Absolutpositionsausdruck) eines Fokuspositionsauswahlverfahrens auf.
  • Der durch die Informationsverarbeitungsvorrichtung des Ausführungsbeispiels 2 auszuführende Prozess wird nachstehend unter Verwendung von 16 beschrieben.
  • 16 zeigt ein Flussdiagramm, das den durch die Informationsverarbeitungsvorrichtung des Ausführungsbeispiels 2 der vorliegenden Erfindung auszuführenden Prozess darstellt.
  • Es ist zu beachten, dass 16 nur von dem Flussdiagramm gemäß 5 des ersten veranschaulichenden Beispiels abweichende Abschnitte darstellt.
  • Wenn die Spracherkennungseinheit 108 eine Spracherkennung von eingegebenen Sprachdaten unter Bezugnahme auf die gelesene Erkennungsgrammatik 106 ausführt, bestimmt die Positionsauswahlverfahrensbestimmungseinheit 151 in einem Schritt S51 unter Bezugnahme auf die Maskennamenhalteeinheit 105, ob das Spracherkennungsergebnis eine Auswahl einer Eingabemaske ist. Falls das Spracherkennungsergebnis eine Auswahl einer Eingabemaske ist (JA in dem Schritt S51), rückt der Ablauf zu einem Schritt S61 vor, um den gleichen Prozess wie in dem Schritt S6 in dem Flussdiagramm gemäß 5 des ersten veranschaulichenden Beispiels auszuführen. Falls demgegenüber das Spracherkennungsergebnis nicht eine Auswahl einer Eingabemaske ist (NEIN in dem Schritt S51), rückt der Ablauf zu einem Schritt S52 vor.
  • Die Positionsauswahlverfahrensbestimmungseinheit 151 bestimmt in dem Schritt S52, ob das Spracherkennungsergebnis ein Relativpositionsausdruck ist. Bei dieser Bestimmung, zum Beispiel ob das Ende des Spracherkennungsergebnisses ein Positionsausdruck ist (zum Beispiel "obere", "untere", "rechte", "linke"), wird es bestimmt, dass das Spracherkennungsergebnis ein Relativpositionsausdruck ist.
  • Falls es in dem Schritt S52 bestimmt wird, dass das Spracherkennungsergebnis ein Relativpositionsausdruck ist (JA in dem Schritt S52), rückt der Ablauf zu einem Schritt S62 vor, um die gleichen Prozesse wie in den Schritten S71 und S72 in 12 des zweiten veranschaulichenden Beispiels auszuführen. Falls demgegenüber das Spracherkennungsergebnis nicht ein Relativpositionsausdruck ist (NEIN in dem Schritt S52), rückt der Ablauf zu einem Schritt S53 vor.
  • Die Positionsauswahlverfahrensbestimmungseinheit 151 bestimmt in dem Schritt S53, ob das Spracherkennungsergebnis ein Absolutpositionsausdruck ist. Bei dieser Bestimmung, zum Beispiel ob das Kopfende des Spracherkennungsergebnisses ein Positionsausdruck ist (zum Beispiel "von oben", "von unten", "von rechts" oder "von links" oder "der gesamten", "in Anzeigebereich" und ihre Synonyme), wird es bestimmt, dass das Spracherkennungsergebnis ein Absolutpositionsausdruck ist.
  • Falls es in dem Schritt S53 bestimmt wird, dass das Spracherkennungsergebnis ein Absolutpositionsausdruck ist (JA in dem Schritt S53), rückt der Ablauf zu einem Schritt S63 vor, um einen Prozess zum Ändern der Fokusposition basierend auf dem Absolutpositionsausdruck auszuführen, der bei dem dritten veranschaulichenden Beispiel und dem ersten Ausführungsbeispiel erläutert worden ist. Falls demgegenüber das Spracherkennungsergebnis nicht ein Absolutpositionsausdruck ist (NEIN in dem Schritt S53), rückt der Ablauf zu dem Schritt S8 vor.
  • Bei der Beschreibung des Ausführungsbeispiels 2 kann die Fokusposition durch das Auswahlverfahren unter Verwendung des Eingabemaskennamens, der Relativposition oder der Absolutposition ausgewählt werden. Es ist selbstverständlich, dass auch ein Aufbau realisiert werden kann, der zum Auswählen der Fokusposition unter Verwendung von zwei oder mehr beliebigen Auswahlverfahren der Verfahren in der Lage ist.
  • Wie vorstehend beschrieben kann gemäß dem Ausführungsbeispiel 2 zusätzlich zu den bei den veranschaulichenden Beispielen 1 bis 3 und dem Ausführungsbeispiel 1 beschriebenen Wirkungen eine flexiblere Eingabemaskenauswahlumgebung, die auf verschiedene Vorrichtungen angewendet werden kann, mittels eingegebener Sprache realisiert werden, da eine Eingabemaske durch eingegebene Sprache über eine Vielzahl von Typen von Auswahlverfahren ausgewählt werden kann.
  • VIERTES VERANSCHAULICHENDES BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
  • Wenn die in der Inhaltshalteeinheit 101 gehaltenen Inhalte unter Verwendung einer Dokumentauszeichnungssprache beschrieben werden, kann die Layoutbeziehungshalteeinheit 113 die Typen von Eingabemasken angebenden Identifizierungskennzeichen halten, und eine Eingabemaske kann durch eingegebene Sprache wie "n-te (Identifizierungskennzeichenname)" ausgewählt werden. 17 zeigt die Inhalte der in der Layoutbeziehungshalteeinheit 113 gehaltenen Eingabemaskeninformationstabelle bei einem derartigen Aufbau. In einem derartigen Fall erkennt die Absolutpositionsbestimmungseinheit 121 den ersten Radioschalter als Geschlecht und den zweiten Radioschalter als Tätigkeit. Wenn der Benutzer Sprache "zweiter Radioschalter" eingibt, wird die Fokusposition zu Tätigkeit bewegt, und der Ablauf rückt zu dem Schritt S7 vor.
  • Es ist zu beachten, dass die Typen von in der Layoutbeziehungshalteeinheit 113 gehaltenen Identifizierungskennzeichen nicht auf "Eingabe" und "Radio" beschränkt sind und der gleiche Prozess ausgeführt werden kann, falls ein ein Menü angebendes Identifizierungskennzeichen "Auswahl" oder ein ein Verknüpfungsziel angebendes Identifizierungskennzeichen "a" gehalten wird.
  • Wie vorstehend beschrieben kann gemäß dem vierten veranschaulichenden Beispiel eine flexiblere Eingabemaskenauswahl mittels eingegebener Sprache realisiert werden, da eine eingegebene Sprache durch eingegebene Sprache gemäß dem Typ des eine Eingabemaske angebenden Identifizierungskennzeichens ausgewählt werden kann.
  • FÜNFTES VERANSCHAULICHENDES BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
  • Wenn Inhalte unter Verwendung einer Dokumentauszeichnungssprache beschrieben werden, sind viele Identifizierungskennzeichen vorhanden, die nicht für Spracherkennungseingaben verwendet werden, wie beispielsweise ein ein Zentrieren angebendes Identifizierungskennzeichen "center", ein eine neue Zeile angebendes Identifizierungskennzeichen "br" und dergleichen.
  • Folglich können bei dem vierten veranschaulichenden Beispiel die Typen von bei einer Fokusbewegung bei einer Spracherkennung verwendeten Identifizierungskennzeichen in einem Abschnitt, der eine Spracherkennung angibt, aufgelistet werden.
  • 18 zeigt ein Beispiel für zum Ausführen einer Spracherkennung unter Verwendung einer Dokumentauszeichnungssprache verwendete Identifizierungskennzeichen. In 18 ist ein Beispiel für Identifizierungskennzeichen einer dem fünften veranschaulichenden Beispiel zugeordneten Spracherkennung angegeben, und die Identifizierungskennzeichen der Spracherkennung [<SpeechRecog...>] sind eine Beschreibung zum Ausführen einer Eingabe durch eine Spracherkennung.
  • In der GUI-Anzeigeeinheit 102 bei dem fünften veranschaulichenden Beispiel wird [<SpeechRecog...>] als "eine Spracherkennung ausführen und ihr Spracherkennungsergebnis anzeigen" interpretiert. Die bei einer Spracherkennung verwendete Erkennungsgrammatik 106 und eine Liste von Typen von bei einer Fokusbewegung bei einer Spracherkennung verwendeten Identifizierungskennzeichen können durch [grammar] bzw. [used_tag] bezeichnet werden. Bei diesem Beispiel gibt ein Identifizierungskennzeichen [<SpeechRecog...>] an, dass ein Erkennungsgrammatikwörterbuch [command.grm] verwendet wird, und drei verschiedene Identifizierungskennzeichen, das heißt ein Identifizierungskennzeichen "Eingabe", ein Identifizierungskennzeichen "Radio" und ein Identifizierungskennzeichen "a", werden bei einer Fokusbewegung verwendet.
  • Wie vorstehend beschrieben können gemäß dem fünften veranschaulichenden Beispiel die zum Ausführen einer Spracherkennung verwendeten Identifizierungskennzeichen effizienter in den Identifizierungskennzeichen in den Inhalten bestimmt werden, da zum Ausführen einer Spracherkennung verwendete Identifizierungskennzeichen zusammen in den Inhalten beschrieben sind. Da die zum Ausführen einer Spracherkennung verwendeten Identifizierungskennzeichen für jeweilige Inhalte beschrieben sind, braucht ferner selbst dann, wenn eine Eingabemaske durch eingegebene Sprache gemäß dem Typ von eine Eingabemaske angebendem Identifizierungskennzeichen ausgewählt wird, die Layoutbeziehungshalteeinheit 113 keine Eingabemaskeninformationstabelle in 17 zu halten, und die Speicherbetriebsmittel können gespart werden.
  • Es ist zu beachten, dass die vorliegende Erfindung einen Fall einschließt, in dem die Erfindung durch ein direktes oder indirektes Zuführen eines Programms (eines dem veranschaulichten Flussdiagramm bei jedem Ausführungsbeispiel entsprechenden Programms) von Software, die die Funktionen der vorstehend angeführten Ausführungsbeispiele für ein System oder eine Vorrichtung realisiert, und ein Auslesen und Ausführen des zugeführten Programmcodes durch einen Computer des Systems oder der Vorrichtung erreicht wird. In einem derartigen Fall ist die Form nicht auf ein Programm beschränkt, solange die Programmfunktion bereitgestellt werden kann.
  • Daher realisiert der zum Realisieren des Funktionsprozesses der vorliegenden Erfindung unter Verwendung eines Computers in einem Computer installierte Programmcode selbst die vorliegende Erfindung. Das heißt, die vorliegende Erfindung schließt das Computerprogramm selbst zum Realisieren des Funktionsprozesses der vorliegenden Erfindung ein.
  • In diesem Fall ist die Form des Programms nicht besonders beschränkt, und ein Objektcode, ein durch einen Interpretierer auszuführendes Programm, einem OS zuzuführende Skriptdaten und dergleichen können verwendet werden, solange sie die Programmfunktion aufweisen.
  • Als ein Aufzeichnungsträger zum Zuführen des Programms können zum Beispiel eine Diskette, eine Festplatte, eine optische Platte, eine magneto-optische Platte, eine MO, eine CD-ROM, eine CD-R, eine CD-RW, ein Magnetband, eine nichtflüchtige Speicherkarte, ein ROM, eine DVD (DVD-ROM, DVD-R) und dergleichen verwendet werden.
  • Als ein anderes Programmzuführungsverfahren kann unter Verwendung eines Browsers auf einem Client-Computer eine Verbindung mit einer gegebenen Homepage im Internet aufgebaut werden, und das Computerprogramm der vorliegenden Erfindung selbst oder eine Datei, die komprimiert ist und eine automatische Installationsfunktion aufweist, kann von der Homepage auf einen Aufzeichnungsträger wie beispielsweise eine Festplatte oder dergleichen heruntergeladen werden, so dass das Programm zugeführt wird. Ferner können Programmcodes, die das Programm der vorliegenden Erfindung bilden, in eine Vielzahl von Dateien zerlegt werden, und diese Dateien können von verschiedenen Homepages heruntergeladen werden. Das heißt, die vorliegende Erfindung schließt auch einen WWW-Server ein, der eine Vielzahl von Benutzern zum Herunterladen von Programmdateien zum Realisieren des Funktionsprozesses der vorliegenden Erfindung unter Verwendung eines Computers veranlasst.
  • Ferner kann ein Speicherträger wie beispielsweise eine CD-ROM oder dergleichen, der das verschlüsselte Programm der vorliegenden Erfindung speichert, an den Benutzer geliefert werden, dem Benutzer, der eine vorbestimmte Bedingung geklärt hat, kann es erlaubt werden, Schlüsselinformationen, die das Programm entschlüsseln, über das Internet von einer Homepage herunterzuladen, und das verschlüsselte Programm kann unter Verwendung der auf einem Computer zu installierenden Schlüsselinformationen ausgeführt werden, so dass die vorliegende Erfindung realisiert wird.
  • Die Funktionen der vorstehend angeführten Ausführungsbeispiele können nicht nur durch ein Ausführen des ausgelesenen Programmcodes durch den Computer, sondern auch durch einige oder alle von tatsächlichen Verarbeitungsbetriebsvorgängen, die durch ein auf dem Computer laufendes OS oder dergleichen auf der Grundlage einer Anweisung des Programms ausgeführt werden, realisiert werden.
  • Überdies können die Funktionen der vorstehend angeführten Ausführungsbeispiele durch einige oder alle von tatsächlichen Prozessen realisiert werden, die durch eine in einer Funktionserweiterungsplatine oder einer Funktionserweiterungseinheit, die in den Computer eingesetzt ist oder mit ihm verbunden ist, angeordnete CPU oder dergleichen ausgeführt werden, nachdem das aus dem Aufzeichnungsträger ausgelesene Programm in einen Speicher der Erweiterungsplatine oder -einheit geschrieben ist.

Claims (20)

  1. Informationsverarbeitungsvorrichtung zum Ausführen eines Prozesses mit Bezug auf eine Vielzahl von in auf einem Bildschirm angezeigten Inhaltsdaten enthaltenen Eingabemasken auf der Grundlage von eingegebener Sprache, wobei die Vorrichtung umfasst: eine Speichereinrichtung (113) zum Speichern von jeder Eingabemaske der Vielzahl von Eingabemasken zugeordneten Eingabemaskeninformationen einschließlich eine Position jeder Eingabemaske der Vielzahl von Eingabemasken angebenden ersten Layoutinformationen; eine Anzeigebereichshalteeinrichtung (122) zum Halten von zweiten Layoutinformationen eines derzeit auf dem Bildschirm angezeigten Anzeigebereichs; eine erste Anzeigesteuerungseinrichtung (102) zum derartigen Steuern, dass zumindest ein Teil der Inhaltsdaten auf dem Bildschirm angezeigt wird; eine Spracherkennungseinrichtung (108) zum Erkennen von eingegebener Sprache zum Erzeugen eines Spracherkennungsergebnisses; eine Bestimmungseinrichtung (106, 108, 112, 121) zum Bestimmen, ob das Spracherkennungsergebnis einen allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck oder einen einem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; eine erste Auswahleinrichtung (121) zum Auswählen von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und den ersten Layoutinformationen, falls das Spracherkennungsergebnis den allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck aufweist; eine zweite Auswahleinrichtung (121, 122) zum Auswählen von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und den zweiten Layoutinformationen für den derzeit angezeigten Teil der Inhaltsdaten, falls das Spracherkennungsergebnis den dem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; und eine zweite Anzeigesteuerungseinrichtung (109) zum Steuern eines Anzeigemusters einer den durch die erste oder zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske zum Unterscheiden der ausgewählten Maske von anderen angezeigten Masken.
  2. Vorrichtung nach Anspruch 1, wobei die Speichereinrichtung (113) zum Speichern von Eingabemaskeninformationen einschließlich eines Eingabemaskennamens für jede Eingabemaske betreibbar ist.
  3. Vorrichtung nach Anspruch 1, wobei die zweite Anzeigesteuerungseinrichtung zum Anzeigen der den durch die erste oder zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske in einem zweiten Anzeigemuster, das von einem ersten Anzeigemuster von anderen angezeigten Eingabemasken verschieden ist, betreibbar ist.
  4. Vorrichtung nach Anspruch 1, wobei die zweite Anzeigesteuerungseinrichtung zum Anzeigen der den durch die erste oder zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske in dem Zentrum des Bildschirms betreibbar ist.
  5. Vorrichtung nach Anspruch 1, die ferner umfasst: eine Ausgabeeinrichtung zum Ausgeben eines Pieptons, wenn die Eingabemaskeninformationen durch die erste oder zweite Auswahleinrichtung ausgewählt werden.
  6. Vorrichtung nach Anspruch 1, wobei die Spracherkennungseinrichtung (108) zum Erkennen der eingegebenen Sprache unter Verwendung von zum Erkennen von Sprache zum Bestimmen der Layoutinformationen verwendeten Spracherkennungsgrammatikdaten betreibbar ist.
  7. Vorrichtung nach Anspruch 6, wobei die Spracherkennungsgrammatikdaten zum Erkennen von Relativpositionen der Eingabemasken angebenden Relativpositionsausdrücken und Absolutpositionen der Eingabemasken angebenden Absolutpositionsausdrücken verwendete Daten aufweisen.
  8. Vorrichtung nach Anspruch 1, wobei die Eingabemasken durch ein Hypertext-Dokument realisiert sind und wobei die Eingabemaskeninformationen die Eingabemasken angebende Identifizierungskennzeichen aufweisen.
  9. Vorrichtung nach Anspruch 8, wobei das Hypertext-Dokument ein zum Ausführen einer Spracherkennung durch die Spracherkennungseinrichtung (108) verwendetes Identifizierungskennzeichen beschreibt.
  10. Informationsverarbeitungsverfahren zum Ausführen eines Prozesses mit Bezug auf eine Vielzahl von in auf einem Bildschirm angezeigten Inhaltsdaten enthaltenen Eingabemasken auf der Grundlage von eingegebener Sprache, wobei das Verfahren umfasst: einen ersten Anzeigesteuerungsschritt (S1) des derartigen Steuerns, dass zumindest ein Teil der Inhaltsdaten auf dem Bildschirm angezeigt wird; einen Halteschritt des Haltens von Layoutinformationen des derzeit auf dem Bildschirm angezeigten Anzeigebereichs; einen Spracherkennungsschritt (S4) des Erkennens von eingegebener Sprache zum Erzeugen eines Spracherkennungsergebnisses; Bestimmen (S5, S6), ob das Spracherkennungsergebnis einen allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck oder einen einem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; einen ersten Auswahlschritt (S6) des Auswählens von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und auf eine Position jeder Eingabemaske der Vielzahl von Eingabemasken angebenden gespeicherten ersten Layoutinformationen, falls das Spracherkennungsergebnis den allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck aufweist; einen zweiten Auswahlschritt (S6) des Auswählens von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und auf gespeicherten zweiten Layoutinformationen eines derzeit auf dem Bildschirm angezeigten Anzeigebereichs, falls das Spracherkennungsergebnis den dem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; und einen zweiten Anzeigesteuerungsschritt (S7) des Steuerns eines Anzeigemusters einer den in dem ersten oder zweiten Auswahlschritt ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske zum Unterscheiden der ausgewählten Maske von anderen angezeigten Masken.
  11. Verfahren nach Anspruch 10, wobei die Inhaltsdaten einen Eingabemaskennamen für jede Eingabemaske der Vielzahl von Eingabemasken aufweisen.
  12. Verfahren nach Anspruch 10, wobei der zweite Anzeigesteuerungsschritt die durch den ersten oder zweiten Auswahlschritt ausgewählten Eingabemasken in einem zweiten Anzeigemuster, das von einem ersten Anzeigemuster von anderen angezeigten Eingabemasken verschieden ist, anzeigt.
  13. Verfahren nach Anspruch 10, wobei der zweite Anzeigesteuerungsschritt die den durch den ersten oder zweiten Auswahlschritt ausgewählten Eingabemaskeninformationen entsprechende Eingabemaske in dem Zentrum des Bildschirms anzeigt.
  14. Verfahren nach Anspruch 10, das ferner ein Ausgeben eines Pieptons, wenn die Eingabemaskeninformationen in dem ersten oder zweiten Auswahlschritt ausgewählt werden, umfasst.
  15. Verfahren nach Anspruch 10, wobei der Spracherkennungsschritt die eingegebene Sprache unter Verwendung von zum Erkennen von Sprache zum Bestimmen der Layoutinformationen verwendeten Spracherkennungsgrammatikdaten erkennt.
  16. Verfahren nach Anspruch 15, wobei die Spracherkennungsgrammatikdaten zum Erkennen von Relativpositionen der Eingabemasken angebenden Relativpositionsausdrücken und Absolutpositionen der Eingabemasken angebenden Absolutpositionsausdrücken verwendete Daten aufweisen.
  17. Verfahren nach Anspruch 10, wobei die Inhaltsdaten ein Hypertext-Dokument sind und wobei die Eingabemaskeninformationen die Eingabemasken angebende Identifizierungskennzeichen aufweisen.
  18. Verfahren nach Anspruch 17, wobei das Hypertext-Dokument ein zum Ausführen einer Spracherkennung durch den Spracherkennungsschritt verwendetes Identifizierungskennzeichen beschreibt.
  19. Computerprogrammerzeugnis mit durch einen Computer ausführbaren Anweisungen zum Veranlassen einer programmierbaren Computervorrichtung zum Durchführen des Verfahrens nach einem der Ansprüche 10 bis 18, wenn sie auf der Computervorrichtung ausgeführt werden.
  20. Computerprogrammerzeugnis nach Anspruch 19, mit einem durch einen Computer lesbaren Träger, der die durch einen Computer ausführbaren Anweisungen speichert.
DE60216096T 2001-03-22 2002-03-19 Informationsverarbeitungsvorrichtung und -verfahren und programmprodukt Expired - Lifetime DE60216096T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2001083038 2001-03-22
JP2001083038 2001-03-22
JP2001386192 2001-12-19
JP2001386192 2001-12-19
PCT/JP2002/002584 WO2002077790A2 (en) 2001-03-22 2002-03-19 Information processing apparatus and method, and program

Publications (2)

Publication Number Publication Date
DE60216096D1 DE60216096D1 (de) 2006-12-28
DE60216096T2 true DE60216096T2 (de) 2007-06-28

Family

ID=26611818

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60216096T Expired - Lifetime DE60216096T2 (de) 2001-03-22 2002-03-19 Informationsverarbeitungsvorrichtung und -verfahren und programmprodukt

Country Status (9)

Country Link
US (1) US7165034B2 (de)
EP (1) EP1405169B1 (de)
JP (1) JP4006338B2 (de)
KR (1) KR100549482B1 (de)
CN (1) CN1291307C (de)
AT (1) ATE345526T1 (de)
AU (1) AU2002238961A1 (de)
DE (1) DE60216096T2 (de)
WO (1) WO2002077790A2 (de)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
US7509260B2 (en) * 2004-09-20 2009-03-24 International Business Machines Corporation Systems and methods for inputting graphical data into a graphical input field
JP2008035494A (ja) * 2006-06-30 2008-02-14 Ricoh Co Ltd 画像処理装置及び画像処理方法
US8612230B2 (en) * 2007-01-03 2013-12-17 Nuance Communications, Inc. Automatic speech recognition with a selection list
CN102156538A (zh) * 2011-03-15 2011-08-17 北京航空航天大学 一种通过语音识别技术控制鼠标操作完成人机交互的方法
KR102009316B1 (ko) * 2013-01-07 2019-08-09 삼성전자주식회사 대화형 서버, 디스플레이 장치 및 그 제어 방법
CN103235643A (zh) * 2013-04-09 2013-08-07 青岛旲天下智能科技有限公司 采用声控式的人机交互设备
JP5735075B2 (ja) * 2013-10-07 2015-06-17 株式会社東芝 電子機器、表示方法、およびプログラム
CN104735634B (zh) * 2013-12-24 2019-06-25 腾讯科技(深圳)有限公司 一种关联支付账号管理方法、移动终端、服务器以及系统
JP6642424B2 (ja) * 2014-06-03 2020-02-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10083688B2 (en) * 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
CN106713111B (zh) * 2015-11-17 2020-04-07 腾讯科技(深圳)有限公司 一种添加好友的处理方法、终端及服务器
JP6451907B2 (ja) * 2016-08-16 2019-01-16 ソニー株式会社 情報処理装置
JP6762819B2 (ja) * 2016-09-14 2020-09-30 株式会社東芝 入力支援装置およびプログラム
CN108279839A (zh) * 2017-01-05 2018-07-13 阿里巴巴集团控股有限公司 基于语音的交互方法、装置、电子设备及操作系统
CN107168551A (zh) * 2017-06-13 2017-09-15 重庆小雨点小额贷款有限公司 一种表单填写的输入方法
CN107240400B (zh) * 2017-07-03 2020-08-11 重庆小雨点小额贷款有限公司 终端操作方法及装置
CN108287815A (zh) * 2017-12-29 2018-07-17 重庆小雨点小额贷款有限公司 信息录入方法、装置、终端及计算机可读存储介质
KR102519635B1 (ko) 2018-01-05 2023-04-10 삼성전자주식회사 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치
CN108664199A (zh) * 2018-05-07 2018-10-16 平安普惠企业管理有限公司 表单填写方法、装置、设备及计算机可读存储介质
JP7327939B2 (ja) * 2019-01-09 2023-08-16 キヤノン株式会社 情報処理システム、情報処理装置、制御方法、プログラム
US11838459B2 (en) 2019-06-07 2023-12-05 Canon Kabushiki Kaisha Information processing system, information processing apparatus, and information processing method
JP2020201911A (ja) * 2019-06-13 2020-12-17 キヤノン株式会社 情報処理システム、情報処理装置、情報処理方法
CN110839998A (zh) * 2019-09-30 2020-02-28 佛山市威格特电气设备有限公司 智能安全帽语音填写作业表单方法
JP7388272B2 (ja) 2020-03-31 2023-11-29 ブラザー工業株式会社 情報処理装置、情報処理方法及びプログラム
JP7383667B2 (ja) 2021-07-16 2023-11-20 株式会社東芝 情報処理装置、方法およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4710763A (en) * 1984-10-19 1987-12-01 Texas Instruments Incorporated Method for generating and displaying tree structures in a limited display area
US5787414A (en) * 1993-06-03 1998-07-28 Kabushiki Kaisha Toshiba Data retrieval system using secondary information of primary data to be retrieved as retrieval key
JPH0793124A (ja) 1993-09-24 1995-04-07 Toshiba Corp 文書作成装置及びスクロール方法
US5619708A (en) * 1994-10-25 1997-04-08 Korteam International, Inc. System and method for generating database input forms
JPH08129476A (ja) 1994-10-31 1996-05-21 Kitsusei Comtec Kk 音声データ入力装置
GB9705926D0 (en) 1997-03-21 1997-05-07 Medical Talk Systems Limited Improved document completion
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
JPH11120269A (ja) 1997-10-20 1999-04-30 Pca Kk 音声入力会計システム及び音声入力会計プログラムを記憶した媒体
JPH11228047A (ja) 1998-02-10 1999-08-24 Hitachi Building Systems Co Ltd 保全作業支援装置
KR100620826B1 (ko) * 1998-10-02 2006-09-13 인터내셔널 비지네스 머신즈 코포레이션 대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법
US6246981B1 (en) * 1998-11-25 2001-06-12 International Business Machines Corporation Natural language task-oriented dialog manager and method
US6745165B2 (en) * 1999-06-16 2004-06-01 International Business Machines Corporation Method and apparatus for recognizing from here to here voice command structures in a finite grammar speech recognition system
US6510411B1 (en) * 1999-10-29 2003-01-21 Unisys Corporation Task oriented dialog model and manager

Also Published As

Publication number Publication date
CN1291307C (zh) 2006-12-20
DE60216096D1 (de) 2006-12-28
KR100549482B1 (ko) 2006-02-08
EP1405169A2 (de) 2004-04-07
EP1405169B1 (de) 2006-11-15
JP2005500591A (ja) 2005-01-06
US7165034B2 (en) 2007-01-16
KR20030086612A (ko) 2003-11-10
JP4006338B2 (ja) 2007-11-14
WO2002077790A3 (en) 2004-01-15
US20040044523A1 (en) 2004-03-04
ATE345526T1 (de) 2006-12-15
CN1537267A (zh) 2004-10-13
WO2002077790A2 (en) 2002-10-03
AU2002238961A1 (en) 2002-10-08

Similar Documents

Publication Publication Date Title
DE60216096T2 (de) Informationsverarbeitungsvorrichtung und -verfahren und programmprodukt
DE60032846T2 (de) Verfahren und System zur Anbietung von Alternativen für von stochastischen Eingabequellen abgeleitete Texte
DE60318021T2 (de) Sprachgesteuerte dateneingabe
DE60037164T2 (de) Verfahren und Vorrichtung zum Zugriff auf ein Dialog-System für mehrere Klienten
DE60222605T2 (de) Begleitsmusikgerät und Verfahren zum Anzeigen der Spielweise von Akkorden
DE60122352T2 (de) Augenverfolgung für kontextabhängige spracherkennung
DE69634459T2 (de) Verfahren und Anordnung zum Vergleichen von strukturierten Dokumenten
DE69434620T2 (de) Verfahren und Gerät zum Herstellen, Indexieren und Anschauen von zusammengefassten Dokumenten
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE60020773T2 (de) Graphische Benutzeroberfläche und Verfahren zur Änderung von Aussprachen in Sprachsynthese und -Erkennungssystemen
DE602005001787T2 (de) Vorrichtung und Verfahren zum Editieren von Druckdaten
DE69737170T2 (de) Auswahl von Befehlen in einem Rechnersystem
DE69722652T2 (de) System und verfahren zum ferngruppieren des inhalts eines historischen kellerspeichers
DE69721424T2 (de) Vorrichtung und Verfahren zum Edieren einer graphischen Benutzerschnittstelle
DE60318505T2 (de) Sprachbefehlinterpreter mit Funktion zur Verfolgung des Dialogfokuses und Verfahren zur Interpretation von Sprachbefehlen
DE102004012839B4 (de) System und Verfahren zur Bereitstellung von Hilfeinformation
DE69819690T2 (de) Spracherkennungsvorrichtung unter verwendung eines befehlslexikons
DE10135445A1 (de) Integriertes Verfahren für das Schaffen einer aktualisierbaren Netzabfrage
DE60123153T2 (de) Sprachgesteuertes Browsersystem
DE102005053671A1 (de) Mobilkommunikationsendgerät, dessen Menü unter Verwendung eines Mobile Flash Elements erstellt werden kann
DE10348337A1 (de) Inhaltsverwaltungsportal und Verfahren zum Kommunizieren von Informationen
DE102010046439A1 (de) System und Verfahren für relevanzbasiertes Kategorisieren und zeitnahes Lernen von Vokabeln
DE102005016561A1 (de) Verfahren und Vorrichtung zur strukturierten Erfassung und Bearbeitung von in einem System auftretenden Problemen
DE102017005933A1 (de) Bearbeitungsprogrammeditiervorrichtung, Verfahren und Speichermedium
DE10127559A1 (de) Benutzergruppenspezifisches Musterverarbeitungssystem

Legal Events

Date Code Title Description
8364 No opposition during term of opposition