-
TECHNISCHES
GEBIET
-
Die
vorliegende Erfindung bezieht sich auf eine Informationsverarbeitungsvorrichtung
und ein Informationsverarbeitungsverfahren zum Ausführen eines
Prozesses auf der Grundlage eines Betriebsvorgangs, der basierend
auf eingegebener Sprache mit Bezug auf eine auf einem Bildschirm
angezeigte Eingabemaske ausgeführt
wird.
-
STAND DER
TECHNIK
-
Wenn
Daten wie beispielsweise Text oder dergleichen in Eingabefelder
(Eingabeformulare bzw. Eingabemasken) auf einer GUI (graphischen
Benutzeroberfläche)
eingegeben werden, wird eine Eingabemaske, die eine Eingabe aufnehmen
soll, durch ein Auswählen
einer Eingabemaske einer Vielzahl von Eingabemasken festgelegt,
und daraufhin werden Daten unter Verwendung einer Tastatur eingegeben,
oder ein Kandidat einer Vielzahl von auszuwählenden Kandidaten wird unter
Verwendung einer Zeigevorrichtung wie beispielsweise einer Maus
oder dergleichen ausgewählt,
um eine Eingabe auszuführen.
Ferner ist bei einem Eingeben von Daten in eine derartige Eingabemaske
eine Technik zum Eingeben von Daten mittels Sprache unter Verwendung
einer Spracherkennungstechnik vorgeschlagen worden.
-
Gemäß dem vorstehenden
Stand der Technik muss jedoch bei einem Eingeben von Daten durch
Sprache in einer Eingabemaske eine Eingabemaske, die die Daten aufnehmen
soll, unter Verwendung einer Tastatur oder Maus ausgewählt werden. Daher
müssen
ein Spracheingabebetrieb und ein manueller Eingabebetrieb kombiniert
werden, und die Betreibbarkeit ist nicht immer gut.
-
Die
US 5,619,708 beschreibt
ein System und Verfahren zum Erzeugen und Eingeben von Daten in Eingabemasken.
Dieses Dokument lehrt, dass die Eingabemasken in einer Datenstruktur
definiert sind, die die Position jeder Maske identifizierende Daten aufweist,
die zum Steuern der Anzeige der Masken auf einem Bildschirm verwendet
werden. Dieses Dokument lehrt auch, dass der Benutzer eine Maske
zur Benutzereingabe durch einen passenden Sprachbefehl, der den
Namen der Maske bestimmt, auswählen kann.
-
Das
Benutzerhandbuch für "Dragon Naturally
Speaking 5" beschreibt
die verschiedenen Sprachbefehle, die in der Spracherkennungssoftware
Dragon Naturally Speaking erlaubt sind. Verschiedene Sprachbefehle
zum Manipulieren von Text in Textverarbeitungsdokumenten sind beschrieben.
Das Benutzerhandbuch beschreibt auch Wege, auf denen Eingabemasken
durch einen Sprachbefehl ausgewählt
werden können.
Diese schließen
die Erkennung des der Maske zugeordneten Namens oder wo kein Name
verfügbar
ist die Erkennung von Relativpositionsausdrücken wie beispielsweise nächste oder
vorhergehende ein. Bei einem alternativen Aufbau werden die Eingabemasken
durch die Dragon-Spracherkennungssoftware nummeriert, so dass der
Benutzer daraufhin die gewünschte
Eingabemaske durch ein Sprechen der der gewünschten Maske zugeordneten
Nummer auswählen
kann.
-
OFFENBARUNG
DER ERFINDUNG
-
Die
vorliegende Erfindung stellt eine Informationsverarbeitungsvorrichtung
zum Ausführen
eines Prozesses mit Bezug auf eine Vielzahl von in auf einem Bildschirm
angezeigten Inhaltsdaten enthaltenen Eingabemasken auf der Grundlage
von eingegebener Sprache bereit, wobei die Vorrichtung umfasst:
eine
Speichereinrichtung zum Speichern von jeder Eingabemaske der Vielzahl
von Eingabemasken zugeordneten Eingabemaskeninformationen einschließlich eine
Position jeder Eingabemaske der Vielzahl von Eingabemasken angebenden
ersten Layoutinformationen;
eine Anzeigebereichshalteeinrichtung
zum Halten von zweiten Layoutinformationen eines derzeit auf dem
Bildschirm angezeigten Anzeigebereichs;
eine erste Anzeigesteuerungseinrichtung
zum derartigen Steuern, dass zumindest ein Teil der Inhaltsdaten
auf dem Bildschirm angezeigt wird;
eine Spracherkennungseinrichtung
zum Erkennen von eingegebener Sprache zum Erzeugen eines Spracherkennungsergebnisses;
eine
Bestimmungseinrichtung zum Bestimmen, ob das Spracherkennungsergebnis
einen allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck
oder einen einem derzeit auf dem Bildschirm angezeigten Anzeigebereich
entsprechenden Absolutpositionsausdruck aufweist;
eine erste
Auswahleinrichtung zum Auswählen
von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck
und den ersten Layoutinformationen, falls das Spracherkennungsergebnis den
allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck aufweist;
eine
zweite Auswahleinrichtung zum Auswählen von Eingabemaskeninformationen
basierend auf dem Absolutpositionsausdruck und den zweiten Layoutinformationen
für den
derzeit angezeigten Teil der Inhaltsdaten, falls das Spracherkennungsergebnis
den dem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden
Absolutpositionsausdruck aufweist; und
eine zweite Anzeigesteuerungseinrichtung
zum Steuern eines Anzeigemusters einer den durch die erste oder
zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen
entsprechenden Eingabemaske zum Unterscheiden der ausgewählten Maske
von anderen angezeigten Masken.
-
Vorzugsweise
weisen die Eingabemaskeninformationen einen Eingabemaskennamen für jede Eingabemaske
auf.
-
Vorzugsweise
ist die zweite Anzeigesteuerungseinrichtung zum Anzeigen der den
durch die erste und zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen
entsprechenden Eingabemaske in einem zweiten Anzeigemuster, das von
einem ersten Anzeigemuster von anderen angezeigten Eingabemasken
verschieden ist, betreibbar.
-
Vorzugsweise
ist die zweite Anzeigsteuerungseinrichtung zum Anzeigen der den
durch die erste oder zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen
entsprechenden Eingabemaske in dem Zentrum auf dem Bildschirm betreibbar.
-
Vorzugsweise
umfasst die Vorrichtung ferner eine Mitteilungseinrichtung zum Mitteilen
der Nachricht, wenn eine Auswahl durch die Auswahleinrichtung festgelegt
wird.
-
Vorzugsweise
ist die Spracherkennungseinrichtung zum Erkennen der eingegebenen
Sprache unter Verwendung von zum Erkennen von Sprache zum Bestimmen
der Layoutinformationen verwendeten Spracherkennungsgrammatikdaten
betreibbar.
-
Vorzugsweise
weisen die Spracherkennungsgrammatikdaten zum Erkennen von relative Positionen
bzw. Relativpositionen der Eingabemasken angebenden Relativpositionsausdrücken und absolute
Positionen bzw. Absolutpositionen der Eingabemasken angebenden Absolutpositionsausdrücken verwendete
Daten auf.
-
Vorzugsweise
weisen die Spracherkennungsgrammatikdaten zum Erkennen, ob der Absolutpositionsausdruck
gesamten Inhalten einschließlich
der Eingabemaske oder einem Anzeigebereich auf dem Bildschirm entspricht,
verwendete Daten auf.
-
Vorzugsweise
weisen die Eingabemaskeninformationen ein die Eingabemaske angebendes Identifizierungskennzeichen
auf, wenn die Eingabemaske durch ein Hypertext-Dokument realisiert
ist.
-
Vorzugsweise
beschreibt das Hypertext-Dokument ein zum Ausführen einer Spracherkennung durch
die Spracherkennungseinrichtung verwendetes Identifizierungskennzeichen.
-
Die
vorliegende Erfindung stellt auch ein Informationsverarbeitungsverfahren
zum Ausführen eines
Prozesses mit Bezug auf eine Vielzahl von in auf einem Bildschirm
angezeigten Inhaltsdaten enthaltenen Eingabemasken auf der Grundlage
von eingegebener Sprache bereit, wobei das Verfahren umfasst:
einen
ersten Anzeigesteuerungsschritt des derartigen Steuerns, dass zumindest
ein Teil der Inhaltsdaten auf dem Bildschirm angezeigt wird;
einen
Halteschritt des Haltens von Layoutinformationen des derzeit auf
dem Bildschirm angezeigten Anzeigebereichs;
einen Spracherkennungsschritt
des Erkennens von eingegebener Sprache zum Erzeugen eines Spracherkennungsergebnisses;
Bestimmen,
ob das Spracherkennungsergebnis einen allen den Inhaltsdaten entsprechenden
Absolutpositionsausdruck oder einen einem derzeit auf dem Bildschirm
angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck
aufweist;
einen ersten Auswahlschritt des Auswählens von Eingabemaskeninformationen
basierend auf dem Absolutpositionsausdruck und auf eine Position
jeder Eingabemaske der Vielzahl von Eingabemasken angebenden gespeicherten
ersten Layoutinformationen, falls das Spracherkennungsergebnis den
allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck aufweist;
einen
zweiten Auswahlschritt des Auswählens
von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck
und auf gespeicherten zweiten Layoutinformationen eines derzeit
auf dem Bildschirm angezeigten Anzeigebereichs, falls das Spracherkennungsergebnis
den dem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden
Absolutpositionsausdruck aufweist; und
einen zweiten Anzeigesteuerungsschritt
des Steuerns eines Anzeigemusters einer den in dem ersten oder zweiten
Auswahlschritt ausgewählten
Eingabemaskeninformationen entsprechenden Eingabemaske zum Unterscheiden
der ausgewählten
Maske von anderen angezeigten Masken.
-
KURZBESCHREIBUNG
DER ZEICHNUNGEN
-
1 zeigt
ein Blockschaltbild, das ein Beispiel für den Hardwareaufbau einer
Informationsverarbeitungsvorrichtung gemäß jedem Ausführungsbeispiel
der vorliegenden Erfindung darstellt;
-
2 zeigt
ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung
gemäß einem
ersten veranschaulichenden Beispiel;
-
3 zeigt
ein Beispiel für
eine Eingabemaskeninformationstabelle bei dem ersten veranschaulichenden
Beispiel;
-
4 zeigt
das Format einer Erkennungsgrammatik bei dem ersten veranschaulichenden
Beispiel;
-
5 zeigt
ein Flussdiagramm, das einen durch die Informationsverarbeitungsvorrichtung
des ersten veranschaulichenden Beispiels ausgeführten Prozess darstellt;
-
6 zeigt
ein Beispiel für
eine GUI bei dem ersten veranschaulichenden Beispiel;
-
7 zeigt
ein Beispiel für
eine GUI bei dem ersten veranschaulichenden Beispiel;
-
8 zeigt
ein Beispiel für
eine GUI bei dem ersten veranschaulichenden Beispiel;
-
9 zeigt
ein Beispiel für
eine GUI bei dem ersten veranschaulichenden Beispiel;
-
10 zeigt
ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung
gemäß einem
zweiten veranschaulichenden Beispiel;
-
11 zeigt
ein Beispiel für
eine Eingabemaskeninformationstabelle bei dem zweiten veranschaulichenden
Beispiel;
-
12 zeigt
ein Flussdiagramm, das einen durch die Informationsverarbeitungsvorrichtung
des zweiten veranschaulichenden Beispiels ausgeführten Prozess darstellt;
-
13 zeigt
ein Beispiel für
eine GUI bei dem zweiten veranschaulichenden Beispiel;
-
14 zeigt
ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung
gemäß einem
dritten veranschaulichenden Beispiel;
-
15 zeigt
ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung
gemäß einem
zweiten Ausführungsbeispiel
der vorliegenden Erfindung;
-
16 zeigt
ein Flussdiagramm, das einen durch die Informationsverarbeitungsvorrichtung
des zweiten Ausführungsbeispiels
der vorliegenden Erfindung ausgeführten Prozess darstellt;
-
17 zeigt
ein Beispiel für
eine Eingabemaskeninformationstabelle gemäß einem vierten veranschaulichenden
Beispiel; und
-
18 zeigt
ein Beispiel für
ein zum Ausführen
einer Spracherkennung unter Verwendung einer Dokumentauszeichnungssprache
verwendetes Identifizierungskennzeichen gemäß einem fünften veranschaulichenden Beispiel.
-
1 zeigt
ein Blockschaltbild, das ein Beispiel für den Hardwareaufbau einer
Informationsverarbeitungsvorrichtung gemäß jedem Ausführungsbeispiel
der vorliegenden Erfindung darstellt.
-
Bei
der Informationsverarbeitungsvorrichtung bezeichnet ein Bezugszeichen 1 eine
Anzeigevorrichtung zum Anzeigen einer GUI. Ein Bezugszeichen 2 bezeichnet
eine Zentraleinheit wie beispielsweise eine CPU oder dergleichen
zum Ausführen
von Prozessen einschließlich
einer numerischen arithmetischen Betriebssteuerung und dergleichen.
Ein Bezugszeichen 3 bezeichnet eine Speichervorrichtung zum
Speichern von Zeitdaten und einem zum Verarbeiten von Abfolgen und
Prozessen von nachstehend zu beschreibenden jeweiligen Ausführungsbeispielen
erforderlichen Programm oder Speichern von verschiedenen Daten wie
beispielsweise Spracherkennungsgrammatikdaten, einem Sprachmodell
und dergleichen. Diese Speichervorrichtung 3 umfasst eine
externe Speichervorrichtung wie beispielsweise eine Plattenvorrichtung
oder dergleichen oder eine interne Speichervorrichtung wie beispielsweise
ein RAM, ROM oder dergleichen.
-
Ein
Bezugszeichen 5 bezeichnet ein Mikrofon zum Eingeben von
durch den Benutzer hervorgebrachter bzw. geäußerter Sprache. Ein Bezugszeichen 4 bezeichnet
einen A/D-Wandler zum Wandeln von über das Mikrofon 5 eingegebenen Sprachdaten von
einem analogen Signal in ein digitales Signal. Ein Bezugszeichen 6 bezeichnet
eine Kommunikationsvorrichtung, die Daten über ein Netz mit einer externen
Vorrichtung wie beispielsweise einem Web-Server oder dergleichen austauscht.
Ein Bezugszeichen 7 bezeichnet einen Bus zum gegenseitigen
Verbinden von verschiedenen Aufbaukomponenten der Informationsverarbeitungsvorrichtung.
-
ERSTES VERANSCHAULICHENDES
BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
-
2 zeigt
ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung
gemäß einem
ersten veranschaulichenden Beispiel.
-
Ein
Bezugszeichen 101 bezeichnet eine Inhaltshalteeinheit zum
Halten von auf einer GUI anzuzeigenden Inhalten, die durch ein unter
Verwendung einer Beschreibungssprache (zum Beispiel einer Dokumentauszeichnungssprache
eines HTML-Dokuments oder dergleichen) beschriebenes Hypertext-Dokument realisiert
wird. Ein Bezugszeichen 102 bezeichnet eine GUI-Anzeigeeinheit
wie beispielsweise einen Browser zum Anzeigen der in der Inhaltshalteeinheit 101 gehaltenen
Inhalte auf der GUI. Ein Bezugszeichen 103 bezeichnet eine
Fokushalteeinheit zum Halten einer auf verschiedene auf der GUI-Anzeigeeinheit 102 angezeigte
Inhalte fokussierten Eingabemaske. Ein Bezugszeichen 104 bezeichnet
eine Maskennamenerzeugungseinheit zum Extrahieren von Eingabemaskennamen (Schreibweisen)
bei den auf der GUI-Anzeigeeinheit 102 angezeigten Inhalten
und Angeben ihrer Aussprachen. Die durch die Maskennamenerzeugungseinheit 104 erzeugten
Eingabemaskennamen und Aussprachen werden in einer Maskennamenhalteeinheit 105 gehalten.
Darüber
hinaus werden die Aussprachen als Bewegungserkennungsgrammatikdaten
verwendet, und die Eingabemaskennamen und Aussprachen werden in
einer Erkennungsgrammatik 106 gehalten.
-
3 zeigt
ein Beispiel für
eine Eingabemaskeninformationstabelle, die Eingabemaskennamen (Schreibweisen)
und Wörterbuchaussprachen in
Entsprechung zueinander speichert, um Eingabemasken zugeordnete
Informationen zu verwalten. In 3 sind die
für die
Eingabemaskeninformationstabelle verwendeten Wörterbuchaussprachen lediglich veranschaulichend,
und ein anderer Typ von Aussprachen kann für die Eingabemaskeninformationstabelle
verwendet werden.
-
4 zeigt
das Format der Erkennungsgrammatik 106.
-
Wie
in 4 gezeigt umfasst die Erkennungsgrammatik 106 drei
Arten von Spracherkennungsgrammatikdaten einschließlich zum
Auswählen
einer zu fokussierenden Eingabemaske durch eingegebene Sprache verwendeten
Bewegungserkennungsgrammatikdaten, Betriebssteuerungserkennungsgrammatikdaten
für verschiedene
Betriebsvorgänge
wie beispielsweise eine Antwort auf eine Bestätigung für den Benutzer, eine Hilfsanforderung und
dergleichen und zum Erkennen von durch Sprache in eine Eingabemaske
eingegebenen Inhalten verwendete Feldwerterkennungsgrammatikdaten. Diese
Spracherkennungsgrammatikdaten können
in einer einzelnen Datei kombiniert sein oder können unabhängige Dateien bilden.
-
Es
ist zu beachten, dass die Spracherkennungsgrammatikdaten diejenigen
einschließen
können,
die normalerweise bei einer Spracherkennung verwendet werden, wie
beispielsweise eine Wortliste, die Schreibweisen und Aussprachen
von Wörtern
in dem Fall der Einzelwortspracherkennung beschreibt, eine auf einer
CFG (kontextfreien Grammatik) basierende Netzgrammatik und dergleichen.
-
Eine
Beschreibung wird auf 2 zurückkommen.
-
Ein
Bezugszeichen 107 bezeichnet eine Spracheingabeeinheit,
die das Mikrofon 5 und den A/D-Wandler 4 zum A/D-Wandeln von über das
Mikrofon 5 eingegebenen Sprachdaten umfasst. Ein Bezugszeichen 108 bezeichnet
eine Spracherkennungseinheit zum Auslesen der in der Erkennungsgrammatik 106 erhaltenen
Spracherkennungsgrammatikdaten und Ausführen einer Spracherkennung eines
von der Spracheingabeeinheit 107 eingegebenen digitalen
Signals. Ein Bezugszeichen 109 bezeichnet eine Fokuspositionsänderungseinheit
zum Ändern
der auf der GUI-Anzeigeeinheit 102 unter Bezugnahme auf
die Fokushalteeinheit 103 angezeigten Fokusposition, wenn
das Spracherkennungsergebnis der Spracherkennungseinheit 108 einen
gegebenen Eingabemaskennamen angibt.
-
Der
durch die Informationsverarbeitungsvorrichtung des ersten veranschaulichenden
Beispiels auszuführende
Prozess wird nachstehend unter Verwendung von 5 beschrieben.
-
5 zeigt
ein Flussdiagramm, das den durch die Informationsverarbeitungsvorrichtung
des ersten veranschaulichenden Beispiels auszuführenden Prozess darstellt.
-
Es
ist zu beachten, dass die Betriebsvorgänge von jeweiligen Schritten
in dem Flussdiagramm gemäß 5 zum
Beispiel als ein Programm in der Speichervorrichtung 3 gespeichert
sind und die Zentraleinheit 2 das Programm ausliest und
ausführt.
-
In
einem Schritt S1 zeigt die GUI-Anzeigeeinheit 102 eine
GUI einschließlich
einer Vielzahl von auf der Anzeigevorrichtung 1 anzuzeigenden
Eingabemasken an. Die GUI kann durch ein Laden und Anzeigen von
externen Daten wie beispielsweise HTML-Daten, die in einer Dokumentaufzeichnungssprache
beschrieben sind, angezeigt werden oder kann nur durch ein ausschließlich zugeordnetes
Programm angezeigt werden.
-
Ein
Beispiel für
die GUI wird nachstehend unter Verwendung von 6 beschrieben.
-
6 zeigt
ein Beispiel für
eine GUI einschließlich
einer Vielzahl von auf der Anzeigevorrichtung 1 anzuzeigenden
Eingabemasken. Diese GUI unterstellt eine Registrierungs-GUI (Eingabe/Änderungs-GUI)
von persönlichen
Registrierungsdaten als Benutzerinformationen, die zu einem gegebenen Benutzer
gehören,
und rechteckige Rahmen in 6 sind jeweils
verschiedene Eingabemasken. Eine Eingabemaske 6 wird zum
Beispiel zum Eingeben einer ID-Nummer als Zeichenfolgendaten verwendet.
Ferner werden Eingabemasken 7, 9 bis 13 und 15 bis 22 zum
Eingeben von verschiedenen Zeichenfolgendaten verwendet. Eingabemasken 8 und 14 sind
zum Auswählen
von gewünschten
Wahldaten aus den im Voraus vorbereiteten (männlich, weiblich, Geschäftsmann
und dergleichen) verwendete Eingabemasken des Radioschaltertyps.
Eine Schaltfläche 23 wird zum
Unterbreiten bzw. Einreichen von in verschiedene Eingabemasken auf
der GUI eingegebenen verschiedenen Daten bei zum Beispiel einer
Anwendung verwendet.
-
Wenn
diese Eingabemasken auf der Anzeigevorrichtung 1 angezeigt
werden, erzeugt die Maskennamenerzeugungseinheit 103 ihre
Eingabemaskennamen und Aussprachen, die als eine Eingabemaskeninformationstabelle
in der Maskennamenhalteeinheit 104 und Erkennungsgrammatik 106 gespeichert
werden wie vorstehend beschrieben.
-
In
dem Fall eines GUI-Anzeigesystems des Server-Client-Typs einschließlich eines
Web-Servers und eines Clients, der einen Web-Browser installiert, kann
der Prozess zum Erzeugen der Eingabemaskennamen, der durch die Maskennamenerzeugungseinheit 103 ausgeführt wird,
auf der Web-Server-Seite im Voraus für jeweilige Inhalte ausgeführt werden oder
kann auf der Client-Seite dynamisch bei dem Web-Browser ausgeführt werden.
-
Bei
dem ersten veranschaulichenden Beispiel wird eine Eingabemaske,
die Daten aufnehmen soll, (auf die im Folgenden auch als eine fokussierte Eingabemaske
Bezug genommen ist) durch die gestrichelte Linie (das erste Anzeigemuster)
angegeben, und eine nicht fokussierte Eingabemaske wird durch die
durchgezogene Linie (das zweite Anzeigemuster) angegeben. 6 dient
als Beispiel für
einen Fall, in dem die Eingabemaske 6 fokussiert ist.
-
Die
in 6 gezeigte Registrierungs-GUI von persönlichen
Registrierungsdaten ist ein Beispiel zum Erläutern eines Falls, in dem die
persönlichen Registrierungsdaten
zu ändern
sind, und es wird angenommen, dass vor der Änderung bereits persönliche Registrierungsdaten
vorhanden sind. Bei einem Ändern
der persönlichen
Registrierungsdaten werden dann, wenn der Benutzer die ID-Nummer
(zum Beispiel 1234) in die Eingabemaske 6 eingibt und die Einreichungsschaltfläche 23 betätigt wie
in 7 gezeigt, der ID-Nummer entsprechende derzeit
registrierte persönliche
Registrierungsdaten angezeigt, und es wird zum Beispiel die Eingabemaske 9 fokussiert.
-
Die
Beschreibung wird auf 5 zurückkommen.
-
In
einem Schritt S2 liest die Spracherkennungseinheit 108 verschiedene
Spracherkennungsgrammatikdaten aus der in der Speichervorrichtung 3 gespeicherten
Erkennungsgrammatik 106 aus. Wie vorstehend beschrieben
schließen
die Spracherkennungsgrammatikdaten die zum Auswählen einer zu fokussierenden
Eingabemaske durch eingegebene Sprache verwendeten Bewegungserkennungsgrammatikdaten,
Betriebssteuerungserkennungsgrammatikdaten und zum Erkennen von
in die derzeit fokussierte Eingabemaske eingegebener Sprache verwendete
Feldwerterkennungsgrammatikdaten ein.
-
In
einem Schritt S3 beginnt die Spracheingabeeinheit 107,
Sprache einzugeben. Durch den Benutzer geäußerte Sprache wird durch das
Mikrofon 5 in ein elektrisches Signal gewandelt, und das
elektrische Signal wird durch den A/D-Wandler 4 weiter in ein digitales
Signal (Sprachdaten) gewandelt. In einem Schritt S4 führt die
Spracherkennungseinheit 108 eine Spracherkennung der eingegebenen Sprachdaten
unter Verwendung der gelesenen verschiedenen Spracherkennungsgrammatikdaten
aus. In diesem Fall wird die Spracherkennung unter Verwendung der
Bewegungserkennungsgrammatikdaten bzw. Feldwerterkennungsgrammatikdaten
ausgeführt.
Da diese beiden Spracherkennungsgrammatikdaten verwendet werden, werden
Spracherkennungsergebnisse aus den jeweiligen Spracherkennungsgrammatikdaten
erhalten. Diese Ergebnisse werden unter Verwendung von numerischen
Werten wie beispielsweise Wahrscheinlichkeitsniveaus, die die Grade
der Sicherheit der Spracherkennung angeben, verglichen, und das
Spracherkennungsergebnis mit einem höheren Grad der Sicherheit wird
als ein endgültiges
Spracherkennungsergebnis ausgewählt.
-
Es
wird in einem Schritt S5 bestimmt, ob das Spracherkennungsergebnis
eine Auswahl einer Eingabemaske ist. Das heißt, es wird bestimmt, ob die unter
Verwendung der Bewegungserkennungsgrammatikdaten erhaltene Wahrscheinlichkeit
des Spracherkennungsergebnisses höher als die des unter Verwendung
der Feldwerterkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses
ist oder nicht. Falls das Spracherkennungsergebnis nicht eine Auswahl
einer Eingabemaske ist (NEIN in dem Schritt S5), rückt der
Ablauf zu einem Schritt S8 vor, um das Spracherkennungsergebnis
der in die fokussierte Eingabemaske eingegebenen Sprachdaten anzuzeigen.
Da dieser Prozess der gleiche wie bei dem Stand der Technik ist,
wird eine Beschreibung davon weggelassen. Falls demgegenüber das
Spracherkennungsergebnis eine Auswahl einer Eingabemaske ist (JA
in dem Schritt S5), rückt
der Ablauf zu einem Schritt S6 vor.
-
In
dem Schritt S6 wird eine dem Spracherkennungsergebnis (Eingabemaskennamen)
entsprechende Eingabemaske ausgewählt. Falls zum Beispiel ein
Eingabemaskenname "Zugehörigkeit" oder "Adresse" als das Spracherkennungsergebnis
erhalten wird, rückt
der Ablauf von dem Schritt S5 zu diesem Schritt S6 vor, und eine
Eingabemaske, die zu dem dem Spracherkennungsergebnis entsprechenden
Eingabemaskennamen passt, wird bestimmt. 9 zeigt
ein Beispiel für
eine GUI auf der Anzeigevorrichtung 1, wenn das Spracherkennungsergebnis "Zugehörigkeit" ist.
-
In
einem Schritt S7 wird ein Auswahlbestätigungsbetriebsvorgang ausgeführt. Dies
ist ein Bestätigungsprozess
zum Darstellen der ausgewählten Eingabemaske
für den
Benutzer. Es wird zum Beispiel eine Anzeigesteuerung zum Ändern des
Anzeigemusters der ausgewählten
Eingabemaske derart, dass sie von anderen nicht ausgewählten Eingabemasken
unterschieden wird, durch ein Aufblitzenlassen der Eingabemaske
(ein Ändern
der Farbe der Maske für
eine vorbestimmte Zeitdauer) oder dergleichen ausgeführt, oder
es wird eine Anzeigesteuerung zum Scrollen eines Fensters zum Verlegen
der ausgewählten
Eingabemaske in das Zentrum des Fensters oder dergleichen ausgeführt. Darüber hinaus
kann ein Piepton produziert werden, um anzugeben, dass die Eingabemaske
ausgewählt
ist.
-
Wie
vorstehend beschrieben kann gemäß dem ersten
veranschaulichenden Beispiel dann, wenn der Benutzer einen Eingabemaskennamen
geäußert hat,
eine dem durch eine Spracherkennung der Äußerung erhaltenen Spracherkennungsergebnis
entsprechende Eingabemaske als ein Eingabeziel von Daten ausgewählt werden.
Auf diese Weise braucht der Benutzer nicht eine Eingabemaske unter Verwendung
einer Tastatur, einer Maus oder dergleichen manuell auszuwählen und
kann eine Eingabemaske und Eingabedaten mit Bezug auf die GUI nur durch
eingegebene Sprache auswählen,
so dass die GUI-Betreibbarkeit im Vergleich zu dem Stand der Technik
verbessert wird.
-
ZWEITES VERANSCHAULICHENDES
BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
-
Bei
dem ersten veranschaulichenden Beispiel wird dann, wenn der Benutzer
einen Eingabemaskennamen geäußert hat,
eine Eingabemaske als ein Eingabeziel von Daten basierend auf dem
durch eine Spracherkennung der Sprache erhaltenen Spracherkennungsergebnis
ausgewählt.
Ferner kann dann, wenn der Benutzer einen eine Relativposition einer
Eingabemaske, zum Beispiel "dritte
obere" oder "zweite untere", angebenden Relativpositionsausdruck
geäußert hat,
eine Eingabemaske als ein Eingabeziel von Daten basierend auf dem
durch eine Spracherkennung der Sprache erhaltenen Spracherkennungsergebnis
ausgewählt
werden.
-
Der
Funktionsaufbau der Informationsverarbeitungsvorrichtung gemäß einem
derartigen Aufbau ist in 10 gezeigt.
-
10 zeigt
ein Funktionsblockschaltbild der Informationsverarbeitungsvorrichtung
gemäß dem zweiten
veranschaulichenden Beispiel.
-
Mit
Bezug auf 10 weist die Vorrichtung zusätzlich zu
der Inhaltshalteeinheit 101, der GUI-Anzeigeeinheit 102,
der Erkennungsgrammatik 106, der Spracheingabeeinheit 107 und
der Spracherkennungseinheit 108 in 2 des ersten
veranschaulichenden Beispiels eine Fokuspositionsänderungseinheit 109 zum Ändern der
Fokusposition, wenn der Benutzer den Relativpositionsausdruck geäußert hat,
eine Fokuspositionshalteeinheit 111 zum Halten der Position
der derzeit fokussierten Eingabemaske, eine Layoutbeziehungserzeugungseinheit 112 zum
Erzeugen von Eingabemaskennamen und ihre Position angebenden Layoutinformationen,
eine Layoutbeziehungshalteeinheit 113 zum Halten der durch
die Layoutbeziehungserzeugungseinheit 112 gehaltenen Eingabemaskennamen
und Layoutinformationen und eine Relativpositionsbestimmungseinheit 114 zum
Bestimmen, ob die geäußerten Inhalte der
Relativpositionsausdruck sind, auf.
-
Die
durch die Layoutbeziehungserzeugungseinheit 112 erzeugten
Eingabemaskennamen und Layoutinformationen werden als eine Eingabemaskeninformationstabelle
in der Speichervorrichtung 3 gespeichert. 11 zeigt
ein Beispiel für
die Tabelle, die als eine Eingabemaskeninformationstabelle verwaltet
wird, die die Eingabemaskennamen und Layoutinformationen (zum Beispiel
eine vertikale Positionskoordinate und eine horizontale Positionskoordinate,
wenn die obere linke Ecke auf der GUI als ein Ursprung definiert
ist) in Entsprechung zueinander speichert. Diese Eingabemaskeninformationstabelle wird
durch ein Analysieren von Inhalten bei einem Anzeigen der Inhalte
erzeugt. Wenn Inhalte von einer externen Vorrichtung wie beispielsweise
einem Web-Server oder dergleichen über ein Netz geliefert werden,
kann die Eingabemaskeninformationstabelle im Voraus auf der Inhaltsanbieterseite
erzeugt werden und kann synchron zu einer Einreichung der Inhalte
eingereicht werden. Darüber
hinaus kann in dem Fall eines GUI-Anzeigesystems des Server-Client-Typs
einschließlich
eines Web-Servers und eines Clients, der einen Web-Browser installiert,
der Prozess zum Erzeugen der Eingabemaskennamen und Layoutinformationen,
der durch die Layoutbeziehungserzeugungseinheit 112 ausgeführt wird,
auf der Web-Server-Seite im Voraus für jeweilige Inhalte ausgeführt werden
oder kann auf der Client-Seite dynamisch bei dem Web-Browser ausgeführt werden.
-
Bei
dem zweiten veranschaulichenden Beispiel enthalten die Bewegungserkennungsgrammatikdaten
in der Erkennungsgrammatik 106 in 11 zum
Ausführen
einer Spracherkennung des Relativpositionsausdrucks erforderliche
Daten, und es werden zum Erkennen von zum Beispiel Bezugszeichen, "te", "obere", "untere", "rechte", "linke", "von" und dergleichen
verwendete Daten verwaltet.
-
Der
durch die Informationsverarbeitungsvorrichtung des zweiten veranschaulichenden
Beispiels auszuführende
Prozess wird nachstehend unter Verwendung von 12 erläutert.
-
12 zeigt
ein Flussdiagramm, das den durch die Informationsverarbeitungsvorrichtung
des zweiten veranschaulichenden Beispiels auszuführenden Prozess darstellt.
-
Es
ist zu beachten, dass 12 nur von dem Flussdiagramm
gemäß 5 des
ersten veranschaulichenden Beispiels abweichende Abschnitte darstellt.
-
Wenn
die Spracherkennungseinheit 108 in dem Schritt S4 eine
Spracherkennung der eingegebenen Sprachdaten unter Bezugnahme auf
die gelesene Erkennungsgrammatik 106 ausführt, bestimmt die
Relativpositionsbestimmungseinheit 114 in einem Schritt
S70, ob das Spracherkennungsergebnis ein Relativpositionsausdruck
ist. Das heißt,
es wird bestimmt, ob die Wahrscheinlichkeit des unter Verwendung
der Bewegungserkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses
höher als die
des unter Verwendung der Feldwerterkennungsgrammatikdaten erhaltenen
Spracherkennungsergebnisses ist. Besonders dann, wenn die Wahrscheinlichkeit
des unter Verwendung der Bewegungserkennungsgrammatikdaten erhaltenen
Spracherkennungsergebnisses höher
als die des unter Verwendung anderer Spracherkennungsgrammatikdaten
erhaltenen Spracherkennungsergebnisses ist, wird es bestimmt, dass
das Spracherkennungsergebnis ein Relativpositionsausdruck ist.
-
Falls
es in einem Schritt S71 bestimmt wird, dass das Spracherkennungsergebnis
nicht ein Relativpositionsausdruck ist (NEIN in dem Schritt S70), rückt der
Ablauf zu dem Schritt S8 vor. Falls demgegenüber das Spracherkennungsergebnis
ein Relativpositionsausdruck ist (JA in dem Schritt S70), rückt der
Ablauf zu dem Schritt S71 vor, und die Fokuspositionsänderungseinheit 109 bestimmt
eine durch den Relativpositionsausdruck bezeichnete Eingabemaske.
In diesem Fall wird die Eingabemaske unter Verwendung der Layoutinformationen
der derzeit fokussierten Eingabemaske, der Layoutbeziehungshalteeinheit 113 und
des Spracherkennungsergebnisses des Relativpositionsausdrucks bestimmt.
-
Falls
zum Beispiel die derzeit fokussierte Eingabemaske eine Eingabemaske 16 (9)
ist, hält
die Fokuspositionshalteeinheit 111 Layoutinformationen
(8, 1) (11) des entsprechenden Eingabemaskennamens "Zugehörigkeit". Falls das Spracherkennungsergebnis
von durch den Benutzer geäußerter Sprache "dritte obere" ist, wird auf der Grundlage
der Eingabemaskeninformationstabelle in 11 (5,
1) als das Bewegungsziel der Fokusposition bestimmt. Auf diese Weise
werden die in der Fokuspositionshalteeinheit 111 gehaltenen
Layoutinformationen zu (5, 1) aktualisiert. Folglich wird wie in 13 gezeigt
die Fokusposition von der Eingabemaske 16 zu einer Eingabemaske 12 geändert.
-
Wie
vorstehend beschrieben kann gemäß dem zweiten
veranschaulichenden Beispiel dann, wenn der Benutzer einen Relativpositionsausdruck, der
die Relativposition einer Eingabemaske angibt, geäußert hat,
eine dem durch eine Spracherkennung der Äußerung erhaltenen Spracherkennungsergebnis
entsprechende Eingabemaske als ein Eingabeziel von Daten ausgewählt werden.
Auf diese Art und Weise braucht der Benutzer nicht eine Eingabemaske
unter Verwendung einer Tastatur, einer Maus oder dergleichen manuell
auszuwählen
und kann eine Eingabemaske und Eingabedaten mit Bezug auf die GUI
nur durch eingegebene Sprache auswählen, so dass die GUI-Betreibbarkeit im
Vergleich zu dem Stand der Technik verbessert wird. Der Benutzer kann
eine Eingabemaske durch einen einfacheren Sprachausdruck als bei
dem ersten veranschaulichenden Beispiel ohne ein Äußern eines
Eingabemaskennamens auswählen,
und es kann eine flexible und genaue Eingabemaskenauswahl mittels
eingegebener Sprache realisiert werden.
-
DRITTES VERANSCHAULICHENDES
BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
-
Bei
dem zweiten veranschaulichenden Beispiel wird eine Eingabemaske
durch den Relativpositionsausdruck ausgewählt. Eine Eingabemaske kann zum
Beispiel auch durch einen eine Absolutposition wie beispielsweise "fünfte von oben" oder "zweite von unten" angebenden Absolutpositionsausdruck,
der durch den Benutzer geäußert wird,
ausgewählt
werden.
-
Der
Funktionsaufbau der Informationsverarbeitungsvorrichtung gemäß einem
derartigen Aufbau ist in 14 gezeigt.
-
14 zeigt
ein Funktionsblockschaltbild der Informationsverarbeitungsvorrichtung
gemäß dem dritten
veranschaulichenden Beispiel.
-
Mit
Bezug auf 14 umfasst die Vorrichtung zusätzlich zu
der Inhaltshalteeinheit 101, der GUI-Anzeigeeinheit 102,
der Erkennungsgrammatik 106, der Spracheingabeeinheit 107 und
der Spracherkennungseinheit 108 in 2 des ersten
veranschaulichenden Beispiels und der Fokuspositionsänderungseinheit 109,
der Layoutbeziehungserzeugungseinheit 112 und der Layoutbeziehungshalteeinheit 113 in 10 des
zweiten veranschaulichenden Beispiels eine Absolutpositionsbestimmungseinheit 121 und
eine Anzeigebereichshalteeinheit 122. Die Absolutpositionsbestimmungseinheit 121 realisiert eine
Funktion ähnlich
der der Relativpositionsbestimmungseinheit 114 in 10 und
bestimmt, ob die geäußerten Inhalte
ein Absolutpositionsausdruck sind. Es ist zu beachten, dass die
Einzelheiten der Anzeigebereichshalteeinheit 122 nachstehend
als ein erstes Ausführungsbeispiel
der Erfindung erläutert
werden. Die Bewegungserkennungsgrammatikdaten in der Erkennungsgrammatik 106 enthalten
zum Ausführen
einer Spracherkennung des Absolutpositionsausdrucks erforderliche
Daten, und zum Erkennen von "von
oben", "von unten", "von rechts", "von links", Bezugszeichen, "te" und dergleichen
verwendete Daten werden verwaltet.
-
Der
durch die Informationsverarbeitungsvorrichtung des dritten veranschaulichenden
Beispiels auszuführende
Prozess ist eine Anwendung des durch die Informationsverarbeitungsvorrichtung
des ersten veranschaulichenden Beispiels ausgeführten Prozesses. Insbesondere
wird in dem Prozess in dem Schritt S6 des Flussdiagramms in 5 des ersten
veranschaulichenden Beispiels durch den Benutzer geäußerte Sprache
erkannt, und die Absolutpositionsbestimmungseinheit 121 wählt eine
zu fokussierende Eingabemaske unter Bezugnahme auf die Eingabemaskeninformationstabelle
in 11 aus. Wenn der Benutzer zum Beispiel "zweite von unten" geäußert hat,
wird eine Eingabemaske einer Telefonnummer mit der vertikalen Position
= 10 ausgewählt,
da der maximale Wert der vertikalen Position der Eingabemaskeninformationstabelle
in 11 11 ist, und die Fokusposition wird zu der Position
bewegt. Danach rückt
der Ablauf zu dem Schritt S7 vor.
-
Wie
vorstehend beschrieben kann gemäß dem dritten
veranschaulichenden Beispiel eine Eingabemaske durch den Absolutpositionsausdruck
anstelle des Relativpositionsausdrucks ausgewählt werden, und eine flexiblere
genaue Eingabemaskenauswahl mittels eingegebener Sprache als bei
dem zweiten veranschaulichenden Beispiel kann realisiert werden.
-
<Ausführungsbeispiel 1>
-
Wenn
Inhalte in einer Fensteranwendung wie beispielsweise einem Browser
oder dergleichen oder auf einer tragbaren Vorrichtung mit einem
knappen Anzeigebereich durchsucht werden, kann die GUI-Anzeigeeinheit 102 Inhalte
nur teilweise anzeigen, und der Benutzer muss die zu durchsuchenden Inhalte
unter Verwendung einer Zeigevorrichtung wie beispielsweise einer
Maus oder dergleichen in dem Anzeigefenster scrollen. Wenn der Benutzer
zum Beispiel "dritte
von oben" geäußert hat,
fokussiert die Vorrichtung bei jedem der veranschaulichenden Beispiele
auf der dritten Maske von oben in dem Bereich der gesamten Inhalte,
aber die Vorrichtung kann zum Beispiel auf der dritten Maske in
dem Anzeigebereich der Inhalte in dem Anzeigefenster fokussieren.
-
In
einem derartigen Fall kann die Anzeigebereichshalteeinheit 122 in 14 Layoutinformationen
des derzeit auf der GUI-Anzeigeeinheit 102 angezeigten
Anzeigebereichs halten, und die Absolutpositionsbestimmungseinheit 121 kann
in dem Prozess in dem Schritt S6 in 5 die Absolutposition
in dem Anzeigebereich bestimmen.
-
Wenn
der Benutzer einen Absolutpositionsausdruck in dem Anzeigebereich
oder den für
die gesamten Inhalte explizit geäußert hat,
kann jeder Ausdruck unterschieden werden, und ein entsprechender
Betrieb kann ausgeführt
werden. In diesem Fall enthalten die Bewegungserkennungsgrammatikdaten
in der Erkennungsgrammatik 106 in 14 zum Ausführen einer
Spracherkennung dieser Absolutpositionsausdrücke erforderliche Daten, und
zum Verwalten von zum Beispiel "gesamt", "in Anzeigebereich" und dergleichen
verwendete Daten werden zusätzlich
zu den bei dem dritten veranschaulichenden Beispiel beschriebenen
verwaltet.
-
In
diesem Fall kann die Absolutposition der gesamten Inhalte oder die
in dem Anzeigebereich in der Anzeigebereichshalteeinheit 122 basierend
auf dem Spracherkennungsergebnis bestimmt werden, falls der Benutzer
so etwas wie "dritte
von oben der gesamten" oder "dritte von oben in
Anzeigebereich" bezeichnet
hat.
-
Wenn
eine die Absolutposition der gesamten Inhalte oder die in dem Anzeigebereich
angebende Bezeichnung weggelassen wird, tritt eine Mehrdeutigkeit
auf. In einem derartigen Fall kann jede dieser Absolutpositionen
als ein vorgeschriebener Wert festgelegt werden, oder die Absolutposition
kann dynamisch zu der vorher bezeichneten Position geändert werden.
Wenn die Absolutposition dynamisch geändert wird, können Bezeichnungsinformationen zum
Auswählen
jeder Absolutposition in der Anzeigebereichshalteeinheit 122 gehalten
werden.
-
Der
durch die Informationsverarbeitungsvorrichtung des Ausführungsbeispiels
1 auszuführende Prozess
ist eine Anwendung des durch die Informationsverarbeitungsvorrichtung
des ersten veranschaulichenden Beispiels ausgeführten Prozesses. Insbesondere
in dem Prozess in dem Schritt S6 des Flussdiagramms in 5 des
ersten veranschaulichenden Beispiels hält die Anzeigebereichshalteeinheit 122 zum
Beispiel eine obere linke Position (3, 1) und untere rechte Position
(9, 2) als Layoutinformationen des Anzeigebereichs, falls Eingabemasken 9 bis 18 der
Inhalte in 6 auf der GUI-Anzeigeeinheit 102 angezeigt
werden.
-
Wenn
der Benutzer "zweite
von unten" geäußert hat
und besonders dann, wenn die Anzeigebereichshalteeinheit 122 zum Übernehmen
des Anzeigebereichs als eine Vorgabe eingestellt ist, bestimmt die
Absolutpositionsbestimmungseinheit 121 unter Bezugnahme
auf die Anzeigebereichshalteeinheit 122 und die Eingabemaskeninformationstabelle
in 11 Layoutinformationen (8, 1) des Eingabemaskennamens "Zugehörigkeit" als die zweite Eingabemaske
von unten in dem Anzeigebereich und bewegt die Fokusposition zu
der Position. Wenn demgegenüber
die Anzeigebereichshalteeinheit 122 zum Übernehmen
der gesamten Inhalte als eine Vorgabe eingestellt ist, bestimmt
die Absolutpositionsbestimmungseinheit 121 Layoutinformationen
(10, 1) des Eingabemaskennamens "Telefonnummer" als die zweite Eingabemaske
von unten der gesamten Inhalte und bewegt die Fokusposition zu der
Position.
-
Wie
vorstehend beschrieben wird gemäß dem Ausführungsbeispiel
1 der Absolutpositionsausdruck der gesamten Inhalte/Absolutpositionsausdruck
in dem Anzeigebereich explizit oder automatisch durch Sprache eingegeben,
und eine Eingabemaske kann durch die eingegebene Sprache ausgewählt werden.
Zusätzlich
zu den bei dem dritten veranschaulichenden Beispiel beschriebenen
Wirkungen kann eine flexiblere, genaue Eingabemaskenauswahl mittels
eingegebener Sprache gemäß dem angezeigten
Anzeigebereich realisiert werden.
-
<Ausführungsbeispiel 2>
-
Bei
den vorstehenden veranschaulichenden Beispielen 1 bis 3 und dem
Ausführungsbeispiel
1 werden als die Bewegungserkennungsgrammatikdaten nur zum Realisieren
jedes Ausführungsbeispiels erforderliche
Daten verwaltet. Alternativ können
die Bewegungserkennungsgrammatikdaten derart konfiguriert sein,
um zum Auswählen
einer Eingabemaske durch den Eingabemaskennamen, den Relativpositionsausdruck
oder den Absolutpositionsausdruck imstande zu sein.
-
Der
Funktionsaufbau der Informationsverarbeitungsvorrichtung gemäß einem
derartigen Ausführungsbeispiel
ist in 15 gezeigt.
-
15 zeigt
ein Funktionsblockschaltbild der Informationsverarbeitungsvorrichtung
gemäß dem Ausführungsbeispiel
2 der vorliegenden Erfindung.
-
Mit
Bezug auf 15 weist die Vorrichtung zusätzlich zu
den jeweiligen Aufbaukomponenten gemäß 2, 10 und 14 der
veranschaulichenden Beispiele 1 bis 3 und des Ausführungsbeispiels
1 eine Positionsauswahlverfahrensbestimmungseinheit 151 zum
Bestimmen des Typs (Eingabemaskenname, Relativpositionsausdruck
und Absolutpositionsausdruck) eines Fokuspositionsauswahlverfahrens
auf.
-
Der
durch die Informationsverarbeitungsvorrichtung des Ausführungsbeispiels
2 auszuführende Prozess
wird nachstehend unter Verwendung von 16 beschrieben.
-
16 zeigt
ein Flussdiagramm, das den durch die Informationsverarbeitungsvorrichtung
des Ausführungsbeispiels
2 der vorliegenden Erfindung auszuführenden Prozess darstellt.
-
Es
ist zu beachten, dass 16 nur von dem Flussdiagramm
gemäß 5 des
ersten veranschaulichenden Beispiels abweichende Abschnitte darstellt.
-
Wenn
die Spracherkennungseinheit 108 eine Spracherkennung von
eingegebenen Sprachdaten unter Bezugnahme auf die gelesene Erkennungsgrammatik 106 ausführt, bestimmt
die Positionsauswahlverfahrensbestimmungseinheit 151 in
einem Schritt S51 unter Bezugnahme auf die Maskennamenhalteeinheit 105,
ob das Spracherkennungsergebnis eine Auswahl einer Eingabemaske ist.
Falls das Spracherkennungsergebnis eine Auswahl einer Eingabemaske
ist (JA in dem Schritt S51), rückt
der Ablauf zu einem Schritt S61 vor, um den gleichen Prozess wie
in dem Schritt S6 in dem Flussdiagramm gemäß 5 des ersten
veranschaulichenden Beispiels auszuführen. Falls demgegenüber das
Spracherkennungsergebnis nicht eine Auswahl einer Eingabemaske ist
(NEIN in dem Schritt S51), rückt
der Ablauf zu einem Schritt S52 vor.
-
Die
Positionsauswahlverfahrensbestimmungseinheit 151 bestimmt
in dem Schritt S52, ob das Spracherkennungsergebnis ein Relativpositionsausdruck
ist. Bei dieser Bestimmung, zum Beispiel ob das Ende des Spracherkennungsergebnisses
ein Positionsausdruck ist (zum Beispiel "obere", "untere", "rechte", "linke"), wird es bestimmt,
dass das Spracherkennungsergebnis ein Relativpositionsausdruck ist.
-
Falls
es in dem Schritt S52 bestimmt wird, dass das Spracherkennungsergebnis
ein Relativpositionsausdruck ist (JA in dem Schritt S52), rückt der Ablauf
zu einem Schritt S62 vor, um die gleichen Prozesse wie in den Schritten
S71 und S72 in 12 des zweiten veranschaulichenden
Beispiels auszuführen.
Falls demgegenüber
das Spracherkennungsergebnis nicht ein Relativpositionsausdruck
ist (NEIN in dem Schritt S52), rückt
der Ablauf zu einem Schritt S53 vor.
-
Die
Positionsauswahlverfahrensbestimmungseinheit 151 bestimmt
in dem Schritt S53, ob das Spracherkennungsergebnis ein Absolutpositionsausdruck
ist. Bei dieser Bestimmung, zum Beispiel ob das Kopfende des Spracherkennungsergebnisses
ein Positionsausdruck ist (zum Beispiel "von oben", "von
unten", "von rechts" oder "von links" oder "der gesamten", "in Anzeigebereich" und ihre Synonyme),
wird es bestimmt, dass das Spracherkennungsergebnis ein Absolutpositionsausdruck
ist.
-
Falls
es in dem Schritt S53 bestimmt wird, dass das Spracherkennungsergebnis
ein Absolutpositionsausdruck ist (JA in dem Schritt S53), rückt der Ablauf
zu einem Schritt S63 vor, um einen Prozess zum Ändern der Fokusposition basierend
auf dem Absolutpositionsausdruck auszuführen, der bei dem dritten veranschaulichenden
Beispiel und dem ersten Ausführungsbeispiel
erläutert
worden ist. Falls demgegenüber
das Spracherkennungsergebnis nicht ein Absolutpositionsausdruck
ist (NEIN in dem Schritt S53), rückt
der Ablauf zu dem Schritt S8 vor.
-
Bei
der Beschreibung des Ausführungsbeispiels
2 kann die Fokusposition durch das Auswahlverfahren unter Verwendung
des Eingabemaskennamens, der Relativposition oder der Absolutposition ausgewählt werden.
Es ist selbstverständlich,
dass auch ein Aufbau realisiert werden kann, der zum Auswählen der
Fokusposition unter Verwendung von zwei oder mehr beliebigen Auswahlverfahren
der Verfahren in der Lage ist.
-
Wie
vorstehend beschrieben kann gemäß dem Ausführungsbeispiel
2 zusätzlich
zu den bei den veranschaulichenden Beispielen 1 bis 3 und dem Ausführungsbeispiel
1 beschriebenen Wirkungen eine flexiblere Eingabemaskenauswahlumgebung, die
auf verschiedene Vorrichtungen angewendet werden kann, mittels eingegebener
Sprache realisiert werden, da eine Eingabemaske durch eingegebene
Sprache über
eine Vielzahl von Typen von Auswahlverfahren ausgewählt werden
kann.
-
VIERTES VERANSCHAULICHENDES
BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
-
Wenn
die in der Inhaltshalteeinheit 101 gehaltenen Inhalte unter
Verwendung einer Dokumentauszeichnungssprache beschrieben werden,
kann die Layoutbeziehungshalteeinheit 113 die Typen von Eingabemasken
angebenden Identifizierungskennzeichen halten, und eine Eingabemaske
kann durch eingegebene Sprache wie "n-te (Identifizierungskennzeichenname)" ausgewählt werden. 17 zeigt
die Inhalte der in der Layoutbeziehungshalteeinheit 113 gehaltenen
Eingabemaskeninformationstabelle bei einem derartigen Aufbau. In
einem derartigen Fall erkennt die Absolutpositionsbestimmungseinheit 121 den
ersten Radioschalter als Geschlecht und den zweiten Radioschalter
als Tätigkeit.
Wenn der Benutzer Sprache "zweiter
Radioschalter" eingibt,
wird die Fokusposition zu Tätigkeit
bewegt, und der Ablauf rückt
zu dem Schritt S7 vor.
-
Es
ist zu beachten, dass die Typen von in der Layoutbeziehungshalteeinheit 113 gehaltenen
Identifizierungskennzeichen nicht auf "Eingabe" und "Radio" beschränkt sind und der gleiche Prozess
ausgeführt
werden kann, falls ein ein Menü angebendes Identifizierungskennzeichen "Auswahl" oder ein ein Verknüpfungsziel
angebendes Identifizierungskennzeichen "a" gehalten
wird.
-
Wie
vorstehend beschrieben kann gemäß dem vierten
veranschaulichenden Beispiel eine flexiblere Eingabemaskenauswahl
mittels eingegebener Sprache realisiert werden, da eine eingegebene Sprache
durch eingegebene Sprache gemäß dem Typ
des eine Eingabemaske angebenden Identifizierungskennzeichens ausgewählt werden
kann.
-
FÜNFTES VERANSCHAULICHENDES BEISPIEL (nur
zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
-
Wenn
Inhalte unter Verwendung einer Dokumentauszeichnungssprache beschrieben
werden, sind viele Identifizierungskennzeichen vorhanden, die nicht
für Spracherkennungseingaben
verwendet werden, wie beispielsweise ein ein Zentrieren angebendes
Identifizierungskennzeichen "center", ein eine neue Zeile
angebendes Identifizierungskennzeichen "br" und
dergleichen.
-
Folglich
können
bei dem vierten veranschaulichenden Beispiel die Typen von bei einer
Fokusbewegung bei einer Spracherkennung verwendeten Identifizierungskennzeichen
in einem Abschnitt, der eine Spracherkennung angibt, aufgelistet
werden.
-
18 zeigt
ein Beispiel für
zum Ausführen einer
Spracherkennung unter Verwendung einer Dokumentauszeichnungssprache
verwendete Identifizierungskennzeichen. In 18 ist
ein Beispiel für Identifizierungskennzeichen
einer dem fünften
veranschaulichenden Beispiel zugeordneten Spracherkennung angegeben,
und die Identifizierungskennzeichen der Spracherkennung [<SpeechRecog...>] sind eine Beschreibung
zum Ausführen
einer Eingabe durch eine Spracherkennung.
-
In
der GUI-Anzeigeeinheit 102 bei dem fünften veranschaulichenden Beispiel
wird [<SpeechRecog...>] als "eine Spracherkennung
ausführen
und ihr Spracherkennungsergebnis anzeigen" interpretiert. Die bei einer Spracherkennung
verwendete Erkennungsgrammatik 106 und eine Liste von Typen
von bei einer Fokusbewegung bei einer Spracherkennung verwendeten
Identifizierungskennzeichen können
durch [grammar] bzw. [used_tag] bezeichnet werden. Bei diesem Beispiel
gibt ein Identifizierungskennzeichen [<SpeechRecog...>] an, dass ein Erkennungsgrammatikwörterbuch
[command.grm] verwendet wird, und drei verschiedene Identifizierungskennzeichen,
das heißt
ein Identifizierungskennzeichen "Eingabe", ein Identifizierungskennzeichen "Radio" und ein Identifizierungskennzeichen "a", werden bei einer Fokusbewegung verwendet.
-
Wie
vorstehend beschrieben können
gemäß dem fünften veranschaulichenden
Beispiel die zum Ausführen
einer Spracherkennung verwendeten Identifizierungskennzeichen effizienter
in den Identifizierungskennzeichen in den Inhalten bestimmt werden,
da zum Ausführen
einer Spracherkennung verwendete Identifizierungskennzeichen zusammen
in den Inhalten beschrieben sind. Da die zum Ausführen einer
Spracherkennung verwendeten Identifizierungskennzeichen für jeweilige
Inhalte beschrieben sind, braucht ferner selbst dann, wenn eine
Eingabemaske durch eingegebene Sprache gemäß dem Typ von eine Eingabemaske
angebendem Identifizierungskennzeichen ausgewählt wird, die Layoutbeziehungshalteeinheit 113 keine
Eingabemaskeninformationstabelle in 17 zu
halten, und die Speicherbetriebsmittel können gespart werden.
-
Es
ist zu beachten, dass die vorliegende Erfindung einen Fall einschließt, in dem
die Erfindung durch ein direktes oder indirektes Zuführen eines Programms
(eines dem veranschaulichten Flussdiagramm bei jedem Ausführungsbeispiel
entsprechenden Programms) von Software, die die Funktionen der vorstehend
angeführten
Ausführungsbeispiele für ein System
oder eine Vorrichtung realisiert, und ein Auslesen und Ausführen des
zugeführten
Programmcodes durch einen Computer des Systems oder der Vorrichtung
erreicht wird. In einem derartigen Fall ist die Form nicht auf ein
Programm beschränkt,
solange die Programmfunktion bereitgestellt werden kann.
-
Daher
realisiert der zum Realisieren des Funktionsprozesses der vorliegenden
Erfindung unter Verwendung eines Computers in einem Computer installierte
Programmcode selbst die vorliegende Erfindung. Das heißt, die
vorliegende Erfindung schließt
das Computerprogramm selbst zum Realisieren des Funktionsprozesses
der vorliegenden Erfindung ein.
-
In
diesem Fall ist die Form des Programms nicht besonders beschränkt, und
ein Objektcode, ein durch einen Interpretierer auszuführendes
Programm, einem OS zuzuführende
Skriptdaten und dergleichen können
verwendet werden, solange sie die Programmfunktion aufweisen.
-
Als
ein Aufzeichnungsträger
zum Zuführen des
Programms können
zum Beispiel eine Diskette, eine Festplatte, eine optische Platte,
eine magneto-optische Platte, eine MO, eine CD-ROM, eine CD-R, eine
CD-RW, ein Magnetband, eine nichtflüchtige Speicherkarte, ein ROM,
eine DVD (DVD-ROM, DVD-R) und dergleichen verwendet werden.
-
Als
ein anderes Programmzuführungsverfahren
kann unter Verwendung eines Browsers auf einem Client-Computer eine
Verbindung mit einer gegebenen Homepage im Internet aufgebaut werden, und
das Computerprogramm der vorliegenden Erfindung selbst oder eine
Datei, die komprimiert ist und eine automatische Installationsfunktion
aufweist, kann von der Homepage auf einen Aufzeichnungsträger wie
beispielsweise eine Festplatte oder dergleichen heruntergeladen
werden, so dass das Programm zugeführt wird. Ferner können Programmcodes,
die das Programm der vorliegenden Erfindung bilden, in eine Vielzahl
von Dateien zerlegt werden, und diese Dateien können von verschiedenen Homepages
heruntergeladen werden. Das heißt,
die vorliegende Erfindung schließt auch einen WWW-Server ein,
der eine Vielzahl von Benutzern zum Herunterladen von Programmdateien
zum Realisieren des Funktionsprozesses der vorliegenden Erfindung
unter Verwendung eines Computers veranlasst.
-
Ferner
kann ein Speicherträger
wie beispielsweise eine CD-ROM oder dergleichen, der das verschlüsselte Programm
der vorliegenden Erfindung speichert, an den Benutzer geliefert
werden, dem Benutzer, der eine vorbestimmte Bedingung geklärt hat,
kann es erlaubt werden, Schlüsselinformationen,
die das Programm entschlüsseln, über das
Internet von einer Homepage herunterzuladen, und das verschlüsselte Programm
kann unter Verwendung der auf einem Computer zu installierenden Schlüsselinformationen
ausgeführt
werden, so dass die vorliegende Erfindung realisiert wird.
-
Die
Funktionen der vorstehend angeführten Ausführungsbeispiele
können
nicht nur durch ein Ausführen
des ausgelesenen Programmcodes durch den Computer, sondern auch
durch einige oder alle von tatsächlichen
Verarbeitungsbetriebsvorgängen, die
durch ein auf dem Computer laufendes OS oder dergleichen auf der
Grundlage einer Anweisung des Programms ausgeführt werden, realisiert werden.
-
Überdies
können
die Funktionen der vorstehend angeführten Ausführungsbeispiele durch einige oder
alle von tatsächlichen
Prozessen realisiert werden, die durch eine in einer Funktionserweiterungsplatine
oder einer Funktionserweiterungseinheit, die in den Computer eingesetzt
ist oder mit ihm verbunden ist, angeordnete CPU oder dergleichen
ausgeführt
werden, nachdem das aus dem Aufzeichnungsträger ausgelesene Programm in
einen Speicher der Erweiterungsplatine oder -einheit geschrieben
ist.