DE60216096T2

DE60216096T2 - Informationsverarbeitungsvorrichtung und -verfahren und programmprodukt

Info

Publication number: DE60216096T2
Application number: DE60216096T
Authority: DE
Inventors: Keiichi Kawasaki-shi SAKAI; Tetsuo Yonezawa-shi KOSAKA
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-03-22
Filing date: 2002-03-19
Publication date: 2007-06-28
Anticipated expiration: 2022-03-20
Also published as: CN1291307C; DE60216096D1; KR100549482B1; EP1405169A2; EP1405169B1; JP2005500591A; US7165034B2; KR20030086612A; JP4006338B2; WO2002077790A3; US20040044523A1; ATE345526T1; CN1537267A; WO2002077790A2; AU2002238961A1

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf eine Informationsverarbeitungsvorrichtung und ein Informationsverarbeitungsverfahren zum Ausführen eines Prozesses auf der Grundlage eines Betriebsvorgangs, der basierend auf eingegebener Sprache mit Bezug auf eine auf einem Bildschirm angezeigte Eingabemaske ausgeführt wird.
STAND DER TECHNIK
Wenn Daten wie beispielsweise Text oder dergleichen in Eingabefelder (Eingabeformulare bzw. Eingabemasken) auf einer GUI (graphischen Benutzeroberfläche) eingegeben werden, wird eine Eingabemaske, die eine Eingabe aufnehmen soll, durch ein Auswählen einer Eingabemaske einer Vielzahl von Eingabemasken festgelegt, und daraufhin werden Daten unter Verwendung einer Tastatur eingegeben, oder ein Kandidat einer Vielzahl von auszuwählenden Kandidaten wird unter Verwendung einer Zeigevorrichtung wie beispielsweise einer Maus oder dergleichen ausgewählt, um eine Eingabe auszuführen. Ferner ist bei einem Eingeben von Daten in eine derartige Eingabemaske eine Technik zum Eingeben von Daten mittels Sprache unter Verwendung einer Spracherkennungstechnik vorgeschlagen worden.
Gemäß dem vorstehenden Stand der Technik muss jedoch bei einem Eingeben von Daten durch Sprache in einer Eingabemaske eine Eingabemaske, die die Daten aufnehmen soll, unter Verwendung einer Tastatur oder Maus ausgewählt werden. Daher müssen ein Spracheingabebetrieb und ein manueller Eingabebetrieb kombiniert werden, und die Betreibbarkeit ist nicht immer gut.
Die US 5,619,708 beschreibt ein System und Verfahren zum Erzeugen und Eingeben von Daten in Eingabemasken. Dieses Dokument lehrt, dass die Eingabemasken in einer Datenstruktur definiert sind, die die Position jeder Maske identifizierende Daten aufweist, die zum Steuern der Anzeige der Masken auf einem Bildschirm verwendet werden. Dieses Dokument lehrt auch, dass der Benutzer eine Maske zur Benutzereingabe durch einen passenden Sprachbefehl, der den Namen der Maske bestimmt, auswählen kann.
Das Benutzerhandbuch für "Dragon Naturally Speaking 5" beschreibt die verschiedenen Sprachbefehle, die in der Spracherkennungssoftware Dragon Naturally Speaking erlaubt sind. Verschiedene Sprachbefehle zum Manipulieren von Text in Textverarbeitungsdokumenten sind beschrieben. Das Benutzerhandbuch beschreibt auch Wege, auf denen Eingabemasken durch einen Sprachbefehl ausgewählt werden können. Diese schließen die Erkennung des der Maske zugeordneten Namens oder wo kein Name verfügbar ist die Erkennung von Relativpositionsausdrücken wie beispielsweise nächste oder vorhergehende ein. Bei einem alternativen Aufbau werden die Eingabemasken durch die Dragon-Spracherkennungssoftware nummeriert, so dass der Benutzer daraufhin die gewünschte Eingabemaske durch ein Sprechen der der gewünschten Maske zugeordneten Nummer auswählen kann.
OFFENBARUNG DER ERFINDUNG
Die vorliegende Erfindung stellt eine Informationsverarbeitungsvorrichtung zum Ausführen eines Prozesses mit Bezug auf eine Vielzahl von in auf einem Bildschirm angezeigten Inhaltsdaten enthaltenen Eingabemasken auf der Grundlage von eingegebener Sprache bereit, wobei die Vorrichtung umfasst:
eine Speichereinrichtung zum Speichern von jeder Eingabemaske der Vielzahl von Eingabemasken zugeordneten Eingabemaskeninformationen einschließlich eine Position jeder Eingabemaske der Vielzahl von Eingabemasken angebenden ersten Layoutinformationen;
eine Anzeigebereichshalteeinrichtung zum Halten von zweiten Layoutinformationen eines derzeit auf dem Bildschirm angezeigten Anzeigebereichs;
eine erste Anzeigesteuerungseinrichtung zum derartigen Steuern, dass zumindest ein Teil der Inhaltsdaten auf dem Bildschirm angezeigt wird;
eine Spracherkennungseinrichtung zum Erkennen von eingegebener Sprache zum Erzeugen eines Spracherkennungsergebnisses;
eine Bestimmungseinrichtung zum Bestimmen, ob das Spracherkennungsergebnis einen allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck oder einen einem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist;
eine erste Auswahleinrichtung zum Auswählen von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und den ersten Layoutinformationen, falls das Spracherkennungsergebnis den allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck aufweist;
eine zweite Auswahleinrichtung zum Auswählen von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und den zweiten Layoutinformationen für den derzeit angezeigten Teil der Inhaltsdaten, falls das Spracherkennungsergebnis den dem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; und
eine zweite Anzeigesteuerungseinrichtung zum Steuern eines Anzeigemusters einer den durch die erste oder zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske zum Unterscheiden der ausgewählten Maske von anderen angezeigten Masken.
Vorzugsweise weisen die Eingabemaskeninformationen einen Eingabemaskennamen für jede Eingabemaske auf.
Vorzugsweise ist die zweite Anzeigesteuerungseinrichtung zum Anzeigen der den durch die erste und zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske in einem zweiten Anzeigemuster, das von einem ersten Anzeigemuster von anderen angezeigten Eingabemasken verschieden ist, betreibbar.
Vorzugsweise ist die zweite Anzeigsteuerungseinrichtung zum Anzeigen der den durch die erste oder zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske in dem Zentrum auf dem Bildschirm betreibbar.
Vorzugsweise umfasst die Vorrichtung ferner eine Mitteilungseinrichtung zum Mitteilen der Nachricht, wenn eine Auswahl durch die Auswahleinrichtung festgelegt wird.
Vorzugsweise ist die Spracherkennungseinrichtung zum Erkennen der eingegebenen Sprache unter Verwendung von zum Erkennen von Sprache zum Bestimmen der Layoutinformationen verwendeten Spracherkennungsgrammatikdaten betreibbar.
Vorzugsweise weisen die Spracherkennungsgrammatikdaten zum Erkennen von relative Positionen bzw. Relativpositionen der Eingabemasken angebenden Relativpositionsausdrücken und absolute Positionen bzw. Absolutpositionen der Eingabemasken angebenden Absolutpositionsausdrücken verwendete Daten auf.
Vorzugsweise weisen die Spracherkennungsgrammatikdaten zum Erkennen, ob der Absolutpositionsausdruck gesamten Inhalten einschließlich der Eingabemaske oder einem Anzeigebereich auf dem Bildschirm entspricht, verwendete Daten auf.
Vorzugsweise weisen die Eingabemaskeninformationen ein die Eingabemaske angebendes Identifizierungskennzeichen auf, wenn die Eingabemaske durch ein Hypertext-Dokument realisiert ist.
Vorzugsweise beschreibt das Hypertext-Dokument ein zum Ausführen einer Spracherkennung durch die Spracherkennungseinrichtung verwendetes Identifizierungskennzeichen.
Die vorliegende Erfindung stellt auch ein Informationsverarbeitungsverfahren zum Ausführen eines Prozesses mit Bezug auf eine Vielzahl von in auf einem Bildschirm angezeigten Inhaltsdaten enthaltenen Eingabemasken auf der Grundlage von eingegebener Sprache bereit, wobei das Verfahren umfasst:
einen ersten Anzeigesteuerungsschritt des derartigen Steuerns, dass zumindest ein Teil der Inhaltsdaten auf dem Bildschirm angezeigt wird;
einen Halteschritt des Haltens von Layoutinformationen des derzeit auf dem Bildschirm angezeigten Anzeigebereichs;
einen Spracherkennungsschritt des Erkennens von eingegebener Sprache zum Erzeugen eines Spracherkennungsergebnisses;
Bestimmen, ob das Spracherkennungsergebnis einen allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck oder einen einem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist;
einen ersten Auswahlschritt des Auswählens von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und auf eine Position jeder Eingabemaske der Vielzahl von Eingabemasken angebenden gespeicherten ersten Layoutinformationen, falls das Spracherkennungsergebnis den allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck aufweist;
einen zweiten Auswahlschritt des Auswählens von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und auf gespeicherten zweiten Layoutinformationen eines derzeit auf dem Bildschirm angezeigten Anzeigebereichs, falls das Spracherkennungsergebnis den dem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; und
einen zweiten Anzeigesteuerungsschritt des Steuerns eines Anzeigemusters einer den in dem ersten oder zweiten Auswahlschritt ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske zum Unterscheiden der ausgewählten Maske von anderen angezeigten Masken.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 zeigt ein Blockschaltbild, das ein Beispiel für den Hardwareaufbau einer Informationsverarbeitungsvorrichtung gemäß jedem Ausführungsbeispiel der vorliegenden Erfindung darstellt;
2 zeigt ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung gemäß einem ersten veranschaulichenden Beispiel;
3 zeigt ein Beispiel für eine Eingabemaskeninformationstabelle bei dem ersten veranschaulichenden Beispiel;
4 zeigt das Format einer Erkennungsgrammatik bei dem ersten veranschaulichenden Beispiel;
5 zeigt ein Flussdiagramm, das einen durch die Informationsverarbeitungsvorrichtung des ersten veranschaulichenden Beispiels ausgeführten Prozess darstellt;
6 zeigt ein Beispiel für eine GUI bei dem ersten veranschaulichenden Beispiel;
7 zeigt ein Beispiel für eine GUI bei dem ersten veranschaulichenden Beispiel;
8 zeigt ein Beispiel für eine GUI bei dem ersten veranschaulichenden Beispiel;
9 zeigt ein Beispiel für eine GUI bei dem ersten veranschaulichenden Beispiel;
10 zeigt ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung gemäß einem zweiten veranschaulichenden Beispiel;
11 zeigt ein Beispiel für eine Eingabemaskeninformationstabelle bei dem zweiten veranschaulichenden Beispiel;
12 zeigt ein Flussdiagramm, das einen durch die Informationsverarbeitungsvorrichtung des zweiten veranschaulichenden Beispiels ausgeführten Prozess darstellt;
13 zeigt ein Beispiel für eine GUI bei dem zweiten veranschaulichenden Beispiel;
14 zeigt ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung gemäß einem dritten veranschaulichenden Beispiel;
15 zeigt ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung gemäß einem zweiten Ausführungsbeispiel der vorliegenden Erfindung;
16 zeigt ein Flussdiagramm, das einen durch die Informationsverarbeitungsvorrichtung des zweiten Ausführungsbeispiels der vorliegenden Erfindung ausgeführten Prozess darstellt;
17 zeigt ein Beispiel für eine Eingabemaskeninformationstabelle gemäß einem vierten veranschaulichenden Beispiel; und
18 zeigt ein Beispiel für ein zum Ausführen einer Spracherkennung unter Verwendung einer Dokumentauszeichnungssprache verwendetes Identifizierungskennzeichen gemäß einem fünften veranschaulichenden Beispiel.
1 zeigt ein Blockschaltbild, das ein Beispiel für den Hardwareaufbau einer Informationsverarbeitungsvorrichtung gemäß jedem Ausführungsbeispiel der vorliegenden Erfindung darstellt.
Bei der Informationsverarbeitungsvorrichtung bezeichnet ein Bezugszeichen 1 eine Anzeigevorrichtung zum Anzeigen einer GUI. Ein Bezugszeichen 2 bezeichnet eine Zentraleinheit wie beispielsweise eine CPU oder dergleichen zum Ausführen von Prozessen einschließlich einer numerischen arithmetischen Betriebssteuerung und dergleichen. Ein Bezugszeichen 3 bezeichnet eine Speichervorrichtung zum Speichern von Zeitdaten und einem zum Verarbeiten von Abfolgen und Prozessen von nachstehend zu beschreibenden jeweiligen Ausführungsbeispielen erforderlichen Programm oder Speichern von verschiedenen Daten wie beispielsweise Spracherkennungsgrammatikdaten, einem Sprachmodell und dergleichen. Diese Speichervorrichtung 3 umfasst eine externe Speichervorrichtung wie beispielsweise eine Plattenvorrichtung oder dergleichen oder eine interne Speichervorrichtung wie beispielsweise ein RAM, ROM oder dergleichen.
Ein Bezugszeichen 5 bezeichnet ein Mikrofon zum Eingeben von durch den Benutzer hervorgebrachter bzw. geäußerter Sprache. Ein Bezugszeichen 4 bezeichnet einen A/D-Wandler zum Wandeln von über das Mikrofon 5 eingegebenen Sprachdaten von einem analogen Signal in ein digitales Signal. Ein Bezugszeichen 6 bezeichnet eine Kommunikationsvorrichtung, die Daten über ein Netz mit einer externen Vorrichtung wie beispielsweise einem Web-Server oder dergleichen austauscht. Ein Bezugszeichen 7 bezeichnet einen Bus zum gegenseitigen Verbinden von verschiedenen Aufbaukomponenten der Informationsverarbeitungsvorrichtung.
ERSTES VERANSCHAULICHENDES BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
2 zeigt ein Funktionsblockschaltbild einer Informationsverarbeitungsvorrichtung gemäß einem ersten veranschaulichenden Beispiel.
Ein Bezugszeichen 101 bezeichnet eine Inhaltshalteeinheit zum Halten von auf einer GUI anzuzeigenden Inhalten, die durch ein unter Verwendung einer Beschreibungssprache (zum Beispiel einer Dokumentauszeichnungssprache eines HTML-Dokuments oder dergleichen) beschriebenes Hypertext-Dokument realisiert wird. Ein Bezugszeichen 102 bezeichnet eine GUI-Anzeigeeinheit wie beispielsweise einen Browser zum Anzeigen der in der Inhaltshalteeinheit 101 gehaltenen Inhalte auf der GUI. Ein Bezugszeichen 103 bezeichnet eine Fokushalteeinheit zum Halten einer auf verschiedene auf der GUI-Anzeigeeinheit 102 angezeigte Inhalte fokussierten Eingabemaske. Ein Bezugszeichen 104 bezeichnet eine Maskennamenerzeugungseinheit zum Extrahieren von Eingabemaskennamen (Schreibweisen) bei den auf der GUI-Anzeigeeinheit 102 angezeigten Inhalten und Angeben ihrer Aussprachen. Die durch die Maskennamenerzeugungseinheit 104 erzeugten Eingabemaskennamen und Aussprachen werden in einer Maskennamenhalteeinheit 105 gehalten. Darüber hinaus werden die Aussprachen als Bewegungserkennungsgrammatikdaten verwendet, und die Eingabemaskennamen und Aussprachen werden in einer Erkennungsgrammatik 106 gehalten.
3 zeigt ein Beispiel für eine Eingabemaskeninformationstabelle, die Eingabemaskennamen (Schreibweisen) und Wörterbuchaussprachen in Entsprechung zueinander speichert, um Eingabemasken zugeordnete Informationen zu verwalten. In 3 sind die für die Eingabemaskeninformationstabelle verwendeten Wörterbuchaussprachen lediglich veranschaulichend, und ein anderer Typ von Aussprachen kann für die Eingabemaskeninformationstabelle verwendet werden.
4 zeigt das Format der Erkennungsgrammatik 106.
Wie in 4 gezeigt umfasst die Erkennungsgrammatik 106 drei Arten von Spracherkennungsgrammatikdaten einschließlich zum Auswählen einer zu fokussierenden Eingabemaske durch eingegebene Sprache verwendeten Bewegungserkennungsgrammatikdaten, Betriebssteuerungserkennungsgrammatikdaten für verschiedene Betriebsvorgänge wie beispielsweise eine Antwort auf eine Bestätigung für den Benutzer, eine Hilfsanforderung und dergleichen und zum Erkennen von durch Sprache in eine Eingabemaske eingegebenen Inhalten verwendete Feldwerterkennungsgrammatikdaten. Diese Spracherkennungsgrammatikdaten können in einer einzelnen Datei kombiniert sein oder können unabhängige Dateien bilden.
Es ist zu beachten, dass die Spracherkennungsgrammatikdaten diejenigen einschließen können, die normalerweise bei einer Spracherkennung verwendet werden, wie beispielsweise eine Wortliste, die Schreibweisen und Aussprachen von Wörtern in dem Fall der Einzelwortspracherkennung beschreibt, eine auf einer CFG (kontextfreien Grammatik) basierende Netzgrammatik und dergleichen.
Eine Beschreibung wird auf 2 zurückkommen.
Ein Bezugszeichen 107 bezeichnet eine Spracheingabeeinheit, die das Mikrofon 5 und den A/D-Wandler 4 zum A/D-Wandeln von über das Mikrofon 5 eingegebenen Sprachdaten umfasst. Ein Bezugszeichen 108 bezeichnet eine Spracherkennungseinheit zum Auslesen der in der Erkennungsgrammatik 106 erhaltenen Spracherkennungsgrammatikdaten und Ausführen einer Spracherkennung eines von der Spracheingabeeinheit 107 eingegebenen digitalen Signals. Ein Bezugszeichen 109 bezeichnet eine Fokuspositionsänderungseinheit zum Ändern der auf der GUI-Anzeigeeinheit 102 unter Bezugnahme auf die Fokushalteeinheit 103 angezeigten Fokusposition, wenn das Spracherkennungsergebnis der Spracherkennungseinheit 108 einen gegebenen Eingabemaskennamen angibt.
Der durch die Informationsverarbeitungsvorrichtung des ersten veranschaulichenden Beispiels auszuführende Prozess wird nachstehend unter Verwendung von 5 beschrieben.
5 zeigt ein Flussdiagramm, das den durch die Informationsverarbeitungsvorrichtung des ersten veranschaulichenden Beispiels auszuführenden Prozess darstellt.
Es ist zu beachten, dass die Betriebsvorgänge von jeweiligen Schritten in dem Flussdiagramm gemäß 5 zum Beispiel als ein Programm in der Speichervorrichtung 3 gespeichert sind und die Zentraleinheit 2 das Programm ausliest und ausführt.
In einem Schritt S1 zeigt die GUI-Anzeigeeinheit 102 eine GUI einschließlich einer Vielzahl von auf der Anzeigevorrichtung 1 anzuzeigenden Eingabemasken an. Die GUI kann durch ein Laden und Anzeigen von externen Daten wie beispielsweise HTML-Daten, die in einer Dokumentaufzeichnungssprache beschrieben sind, angezeigt werden oder kann nur durch ein ausschließlich zugeordnetes Programm angezeigt werden.
Ein Beispiel für die GUI wird nachstehend unter Verwendung von 6 beschrieben.
6 zeigt ein Beispiel für eine GUI einschließlich einer Vielzahl von auf der Anzeigevorrichtung 1 anzuzeigenden Eingabemasken. Diese GUI unterstellt eine Registrierungs-GUI (Eingabe/Änderungs-GUI) von persönlichen Registrierungsdaten als Benutzerinformationen, die zu einem gegebenen Benutzer gehören, und rechteckige Rahmen in 6 sind jeweils verschiedene Eingabemasken. Eine Eingabemaske 6 wird zum Beispiel zum Eingeben einer ID-Nummer als Zeichenfolgendaten verwendet. Ferner werden Eingabemasken 7, 9 bis 13 und 15 bis 22 zum Eingeben von verschiedenen Zeichenfolgendaten verwendet. Eingabemasken 8 und 14 sind zum Auswählen von gewünschten Wahldaten aus den im Voraus vorbereiteten (männlich, weiblich, Geschäftsmann und dergleichen) verwendete Eingabemasken des Radioschaltertyps. Eine Schaltfläche 23 wird zum Unterbreiten bzw. Einreichen von in verschiedene Eingabemasken auf der GUI eingegebenen verschiedenen Daten bei zum Beispiel einer Anwendung verwendet.
Wenn diese Eingabemasken auf der Anzeigevorrichtung 1 angezeigt werden, erzeugt die Maskennamenerzeugungseinheit 103 ihre Eingabemaskennamen und Aussprachen, die als eine Eingabemaskeninformationstabelle in der Maskennamenhalteeinheit 104 und Erkennungsgrammatik 106 gespeichert werden wie vorstehend beschrieben.
In dem Fall eines GUI-Anzeigesystems des Server-Client-Typs einschließlich eines Web-Servers und eines Clients, der einen Web-Browser installiert, kann der Prozess zum Erzeugen der Eingabemaskennamen, der durch die Maskennamenerzeugungseinheit 103 ausgeführt wird, auf der Web-Server-Seite im Voraus für jeweilige Inhalte ausgeführt werden oder kann auf der Client-Seite dynamisch bei dem Web-Browser ausgeführt werden.
Bei dem ersten veranschaulichenden Beispiel wird eine Eingabemaske, die Daten aufnehmen soll, (auf die im Folgenden auch als eine fokussierte Eingabemaske Bezug genommen ist) durch die gestrichelte Linie (das erste Anzeigemuster) angegeben, und eine nicht fokussierte Eingabemaske wird durch die durchgezogene Linie (das zweite Anzeigemuster) angegeben. 6 dient als Beispiel für einen Fall, in dem die Eingabemaske 6 fokussiert ist.
Die in 6 gezeigte Registrierungs-GUI von persönlichen Registrierungsdaten ist ein Beispiel zum Erläutern eines Falls, in dem die persönlichen Registrierungsdaten zu ändern sind, und es wird angenommen, dass vor der Änderung bereits persönliche Registrierungsdaten vorhanden sind. Bei einem Ändern der persönlichen Registrierungsdaten werden dann, wenn der Benutzer die ID-Nummer (zum Beispiel 1234) in die Eingabemaske 6 eingibt und die Einreichungsschaltfläche 23 betätigt wie in 7 gezeigt, der ID-Nummer entsprechende derzeit registrierte persönliche Registrierungsdaten angezeigt, und es wird zum Beispiel die Eingabemaske 9 fokussiert.
Die Beschreibung wird auf 5 zurückkommen.
In einem Schritt S2 liest die Spracherkennungseinheit 108 verschiedene Spracherkennungsgrammatikdaten aus der in der Speichervorrichtung 3 gespeicherten Erkennungsgrammatik 106 aus. Wie vorstehend beschrieben schließen die Spracherkennungsgrammatikdaten die zum Auswählen einer zu fokussierenden Eingabemaske durch eingegebene Sprache verwendeten Bewegungserkennungsgrammatikdaten, Betriebssteuerungserkennungsgrammatikdaten und zum Erkennen von in die derzeit fokussierte Eingabemaske eingegebener Sprache verwendete Feldwerterkennungsgrammatikdaten ein.
In einem Schritt S3 beginnt die Spracheingabeeinheit 107, Sprache einzugeben. Durch den Benutzer geäußerte Sprache wird durch das Mikrofon 5 in ein elektrisches Signal gewandelt, und das elektrische Signal wird durch den A/D-Wandler 4 weiter in ein digitales Signal (Sprachdaten) gewandelt. In einem Schritt S4 führt die Spracherkennungseinheit 108 eine Spracherkennung der eingegebenen Sprachdaten unter Verwendung der gelesenen verschiedenen Spracherkennungsgrammatikdaten aus. In diesem Fall wird die Spracherkennung unter Verwendung der Bewegungserkennungsgrammatikdaten bzw. Feldwerterkennungsgrammatikdaten ausgeführt. Da diese beiden Spracherkennungsgrammatikdaten verwendet werden, werden Spracherkennungsergebnisse aus den jeweiligen Spracherkennungsgrammatikdaten erhalten. Diese Ergebnisse werden unter Verwendung von numerischen Werten wie beispielsweise Wahrscheinlichkeitsniveaus, die die Grade der Sicherheit der Spracherkennung angeben, verglichen, und das Spracherkennungsergebnis mit einem höheren Grad der Sicherheit wird als ein endgültiges Spracherkennungsergebnis ausgewählt.
Es wird in einem Schritt S5 bestimmt, ob das Spracherkennungsergebnis eine Auswahl einer Eingabemaske ist. Das heißt, es wird bestimmt, ob die unter Verwendung der Bewegungserkennungsgrammatikdaten erhaltene Wahrscheinlichkeit des Spracherkennungsergebnisses höher als die des unter Verwendung der Feldwerterkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses ist oder nicht. Falls das Spracherkennungsergebnis nicht eine Auswahl einer Eingabemaske ist (NEIN in dem Schritt S5), rückt der Ablauf zu einem Schritt S8 vor, um das Spracherkennungsergebnis der in die fokussierte Eingabemaske eingegebenen Sprachdaten anzuzeigen. Da dieser Prozess der gleiche wie bei dem Stand der Technik ist, wird eine Beschreibung davon weggelassen. Falls demgegenüber das Spracherkennungsergebnis eine Auswahl einer Eingabemaske ist (JA in dem Schritt S5), rückt der Ablauf zu einem Schritt S6 vor.
In dem Schritt S6 wird eine dem Spracherkennungsergebnis (Eingabemaskennamen) entsprechende Eingabemaske ausgewählt. Falls zum Beispiel ein Eingabemaskenname "Zugehörigkeit" oder "Adresse" als das Spracherkennungsergebnis erhalten wird, rückt der Ablauf von dem Schritt S5 zu diesem Schritt S6 vor, und eine Eingabemaske, die zu dem dem Spracherkennungsergebnis entsprechenden Eingabemaskennamen passt, wird bestimmt. 9 zeigt ein Beispiel für eine GUI auf der Anzeigevorrichtung 1, wenn das Spracherkennungsergebnis "Zugehörigkeit" ist.
In einem Schritt S7 wird ein Auswahlbestätigungsbetriebsvorgang ausgeführt. Dies ist ein Bestätigungsprozess zum Darstellen der ausgewählten Eingabemaske für den Benutzer. Es wird zum Beispiel eine Anzeigesteuerung zum Ändern des Anzeigemusters der ausgewählten Eingabemaske derart, dass sie von anderen nicht ausgewählten Eingabemasken unterschieden wird, durch ein Aufblitzenlassen der Eingabemaske (ein Ändern der Farbe der Maske für eine vorbestimmte Zeitdauer) oder dergleichen ausgeführt, oder es wird eine Anzeigesteuerung zum Scrollen eines Fensters zum Verlegen der ausgewählten Eingabemaske in das Zentrum des Fensters oder dergleichen ausgeführt. Darüber hinaus kann ein Piepton produziert werden, um anzugeben, dass die Eingabemaske ausgewählt ist.
Wie vorstehend beschrieben kann gemäß dem ersten veranschaulichenden Beispiel dann, wenn der Benutzer einen Eingabemaskennamen geäußert hat, eine dem durch eine Spracherkennung der Äußerung erhaltenen Spracherkennungsergebnis entsprechende Eingabemaske als ein Eingabeziel von Daten ausgewählt werden. Auf diese Weise braucht der Benutzer nicht eine Eingabemaske unter Verwendung einer Tastatur, einer Maus oder dergleichen manuell auszuwählen und kann eine Eingabemaske und Eingabedaten mit Bezug auf die GUI nur durch eingegebene Sprache auswählen, so dass die GUI-Betreibbarkeit im Vergleich zu dem Stand der Technik verbessert wird.
ZWEITES VERANSCHAULICHENDES BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
Bei dem ersten veranschaulichenden Beispiel wird dann, wenn der Benutzer einen Eingabemaskennamen geäußert hat, eine Eingabemaske als ein Eingabeziel von Daten basierend auf dem durch eine Spracherkennung der Sprache erhaltenen Spracherkennungsergebnis ausgewählt. Ferner kann dann, wenn der Benutzer einen eine Relativposition einer Eingabemaske, zum Beispiel "dritte obere" oder "zweite untere", angebenden Relativpositionsausdruck geäußert hat, eine Eingabemaske als ein Eingabeziel von Daten basierend auf dem durch eine Spracherkennung der Sprache erhaltenen Spracherkennungsergebnis ausgewählt werden.
Der Funktionsaufbau der Informationsverarbeitungsvorrichtung gemäß einem derartigen Aufbau ist in 10 gezeigt.
10 zeigt ein Funktionsblockschaltbild der Informationsverarbeitungsvorrichtung gemäß dem zweiten veranschaulichenden Beispiel.
Mit Bezug auf 10 weist die Vorrichtung zusätzlich zu der Inhaltshalteeinheit 101, der GUI-Anzeigeeinheit 102, der Erkennungsgrammatik 106, der Spracheingabeeinheit 107 und der Spracherkennungseinheit 108 in 2 des ersten veranschaulichenden Beispiels eine Fokuspositionsänderungseinheit 109 zum Ändern der Fokusposition, wenn der Benutzer den Relativpositionsausdruck geäußert hat, eine Fokuspositionshalteeinheit 111 zum Halten der Position der derzeit fokussierten Eingabemaske, eine Layoutbeziehungserzeugungseinheit 112 zum Erzeugen von Eingabemaskennamen und ihre Position angebenden Layoutinformationen, eine Layoutbeziehungshalteeinheit 113 zum Halten der durch die Layoutbeziehungserzeugungseinheit 112 gehaltenen Eingabemaskennamen und Layoutinformationen und eine Relativpositionsbestimmungseinheit 114 zum Bestimmen, ob die geäußerten Inhalte der Relativpositionsausdruck sind, auf.
Die durch die Layoutbeziehungserzeugungseinheit 112 erzeugten Eingabemaskennamen und Layoutinformationen werden als eine Eingabemaskeninformationstabelle in der Speichervorrichtung 3 gespeichert. 11 zeigt ein Beispiel für die Tabelle, die als eine Eingabemaskeninformationstabelle verwaltet wird, die die Eingabemaskennamen und Layoutinformationen (zum Beispiel eine vertikale Positionskoordinate und eine horizontale Positionskoordinate, wenn die obere linke Ecke auf der GUI als ein Ursprung definiert ist) in Entsprechung zueinander speichert. Diese Eingabemaskeninformationstabelle wird durch ein Analysieren von Inhalten bei einem Anzeigen der Inhalte erzeugt. Wenn Inhalte von einer externen Vorrichtung wie beispielsweise einem Web-Server oder dergleichen über ein Netz geliefert werden, kann die Eingabemaskeninformationstabelle im Voraus auf der Inhaltsanbieterseite erzeugt werden und kann synchron zu einer Einreichung der Inhalte eingereicht werden. Darüber hinaus kann in dem Fall eines GUI-Anzeigesystems des Server-Client-Typs einschließlich eines Web-Servers und eines Clients, der einen Web-Browser installiert, der Prozess zum Erzeugen der Eingabemaskennamen und Layoutinformationen, der durch die Layoutbeziehungserzeugungseinheit 112 ausgeführt wird, auf der Web-Server-Seite im Voraus für jeweilige Inhalte ausgeführt werden oder kann auf der Client-Seite dynamisch bei dem Web-Browser ausgeführt werden.
Bei dem zweiten veranschaulichenden Beispiel enthalten die Bewegungserkennungsgrammatikdaten in der Erkennungsgrammatik 106 in 11 zum Ausführen einer Spracherkennung des Relativpositionsausdrucks erforderliche Daten, und es werden zum Erkennen von zum Beispiel Bezugszeichen, "te", "obere", "untere", "rechte", "linke", "von" und dergleichen verwendete Daten verwaltet.
Der durch die Informationsverarbeitungsvorrichtung des zweiten veranschaulichenden Beispiels auszuführende Prozess wird nachstehend unter Verwendung von 12 erläutert.
12 zeigt ein Flussdiagramm, das den durch die Informationsverarbeitungsvorrichtung des zweiten veranschaulichenden Beispiels auszuführenden Prozess darstellt.
Es ist zu beachten, dass 12 nur von dem Flussdiagramm gemäß 5 des ersten veranschaulichenden Beispiels abweichende Abschnitte darstellt.
Wenn die Spracherkennungseinheit 108 in dem Schritt S4 eine Spracherkennung der eingegebenen Sprachdaten unter Bezugnahme auf die gelesene Erkennungsgrammatik 106 ausführt, bestimmt die Relativpositionsbestimmungseinheit 114 in einem Schritt S70, ob das Spracherkennungsergebnis ein Relativpositionsausdruck ist. Das heißt, es wird bestimmt, ob die Wahrscheinlichkeit des unter Verwendung der Bewegungserkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses höher als die des unter Verwendung der Feldwerterkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses ist. Besonders dann, wenn die Wahrscheinlichkeit des unter Verwendung der Bewegungserkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses höher als die des unter Verwendung anderer Spracherkennungsgrammatikdaten erhaltenen Spracherkennungsergebnisses ist, wird es bestimmt, dass das Spracherkennungsergebnis ein Relativpositionsausdruck ist.
Falls es in einem Schritt S71 bestimmt wird, dass das Spracherkennungsergebnis nicht ein Relativpositionsausdruck ist (NEIN in dem Schritt S70), rückt der Ablauf zu dem Schritt S8 vor. Falls demgegenüber das Spracherkennungsergebnis ein Relativpositionsausdruck ist (JA in dem Schritt S70), rückt der Ablauf zu dem Schritt S71 vor, und die Fokuspositionsänderungseinheit 109 bestimmt eine durch den Relativpositionsausdruck bezeichnete Eingabemaske. In diesem Fall wird die Eingabemaske unter Verwendung der Layoutinformationen der derzeit fokussierten Eingabemaske, der Layoutbeziehungshalteeinheit 113 und des Spracherkennungsergebnisses des Relativpositionsausdrucks bestimmt.
Falls zum Beispiel die derzeit fokussierte Eingabemaske eine Eingabemaske 16 (9) ist, hält die Fokuspositionshalteeinheit 111 Layoutinformationen (8, 1) (11) des entsprechenden Eingabemaskennamens "Zugehörigkeit". Falls das Spracherkennungsergebnis von durch den Benutzer geäußerter Sprache "dritte obere" ist, wird auf der Grundlage der Eingabemaskeninformationstabelle in 11 (5, 1) als das Bewegungsziel der Fokusposition bestimmt. Auf diese Weise werden die in der Fokuspositionshalteeinheit 111 gehaltenen Layoutinformationen zu (5, 1) aktualisiert. Folglich wird wie in 13 gezeigt die Fokusposition von der Eingabemaske 16 zu einer Eingabemaske 12 geändert.
Wie vorstehend beschrieben kann gemäß dem zweiten veranschaulichenden Beispiel dann, wenn der Benutzer einen Relativpositionsausdruck, der die Relativposition einer Eingabemaske angibt, geäußert hat, eine dem durch eine Spracherkennung der Äußerung erhaltenen Spracherkennungsergebnis entsprechende Eingabemaske als ein Eingabeziel von Daten ausgewählt werden. Auf diese Art und Weise braucht der Benutzer nicht eine Eingabemaske unter Verwendung einer Tastatur, einer Maus oder dergleichen manuell auszuwählen und kann eine Eingabemaske und Eingabedaten mit Bezug auf die GUI nur durch eingegebene Sprache auswählen, so dass die GUI-Betreibbarkeit im Vergleich zu dem Stand der Technik verbessert wird. Der Benutzer kann eine Eingabemaske durch einen einfacheren Sprachausdruck als bei dem ersten veranschaulichenden Beispiel ohne ein Äußern eines Eingabemaskennamens auswählen, und es kann eine flexible und genaue Eingabemaskenauswahl mittels eingegebener Sprache realisiert werden.
DRITTES VERANSCHAULICHENDES BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
Bei dem zweiten veranschaulichenden Beispiel wird eine Eingabemaske durch den Relativpositionsausdruck ausgewählt. Eine Eingabemaske kann zum Beispiel auch durch einen eine Absolutposition wie beispielsweise "fünfte von oben" oder "zweite von unten" angebenden Absolutpositionsausdruck, der durch den Benutzer geäußert wird, ausgewählt werden.
Der Funktionsaufbau der Informationsverarbeitungsvorrichtung gemäß einem derartigen Aufbau ist in 14 gezeigt.
14 zeigt ein Funktionsblockschaltbild der Informationsverarbeitungsvorrichtung gemäß dem dritten veranschaulichenden Beispiel.
Mit Bezug auf 14 umfasst die Vorrichtung zusätzlich zu der Inhaltshalteeinheit 101, der GUI-Anzeigeeinheit 102, der Erkennungsgrammatik 106, der Spracheingabeeinheit 107 und der Spracherkennungseinheit 108 in 2 des ersten veranschaulichenden Beispiels und der Fokuspositionsänderungseinheit 109, der Layoutbeziehungserzeugungseinheit 112 und der Layoutbeziehungshalteeinheit 113 in 10 des zweiten veranschaulichenden Beispiels eine Absolutpositionsbestimmungseinheit 121 und eine Anzeigebereichshalteeinheit 122. Die Absolutpositionsbestimmungseinheit 121 realisiert eine Funktion ähnlich der der Relativpositionsbestimmungseinheit 114 in 10 und bestimmt, ob die geäußerten Inhalte ein Absolutpositionsausdruck sind. Es ist zu beachten, dass die Einzelheiten der Anzeigebereichshalteeinheit 122 nachstehend als ein erstes Ausführungsbeispiel der Erfindung erläutert werden. Die Bewegungserkennungsgrammatikdaten in der Erkennungsgrammatik 106 enthalten zum Ausführen einer Spracherkennung des Absolutpositionsausdrucks erforderliche Daten, und zum Erkennen von "von oben", "von unten", "von rechts", "von links", Bezugszeichen, "te" und dergleichen verwendete Daten werden verwaltet.
Der durch die Informationsverarbeitungsvorrichtung des dritten veranschaulichenden Beispiels auszuführende Prozess ist eine Anwendung des durch die Informationsverarbeitungsvorrichtung des ersten veranschaulichenden Beispiels ausgeführten Prozesses. Insbesondere wird in dem Prozess in dem Schritt S6 des Flussdiagramms in 5 des ersten veranschaulichenden Beispiels durch den Benutzer geäußerte Sprache erkannt, und die Absolutpositionsbestimmungseinheit 121 wählt eine zu fokussierende Eingabemaske unter Bezugnahme auf die Eingabemaskeninformationstabelle in 11 aus. Wenn der Benutzer zum Beispiel "zweite von unten" geäußert hat, wird eine Eingabemaske einer Telefonnummer mit der vertikalen Position = 10 ausgewählt, da der maximale Wert der vertikalen Position der Eingabemaskeninformationstabelle in 11 11 ist, und die Fokusposition wird zu der Position bewegt. Danach rückt der Ablauf zu dem Schritt S7 vor.
Wie vorstehend beschrieben kann gemäß dem dritten veranschaulichenden Beispiel eine Eingabemaske durch den Absolutpositionsausdruck anstelle des Relativpositionsausdrucks ausgewählt werden, und eine flexiblere genaue Eingabemaskenauswahl mittels eingegebener Sprache als bei dem zweiten veranschaulichenden Beispiel kann realisiert werden.
<Ausführungsbeispiel 1>
Wenn Inhalte in einer Fensteranwendung wie beispielsweise einem Browser oder dergleichen oder auf einer tragbaren Vorrichtung mit einem knappen Anzeigebereich durchsucht werden, kann die GUI-Anzeigeeinheit 102 Inhalte nur teilweise anzeigen, und der Benutzer muss die zu durchsuchenden Inhalte unter Verwendung einer Zeigevorrichtung wie beispielsweise einer Maus oder dergleichen in dem Anzeigefenster scrollen. Wenn der Benutzer zum Beispiel "dritte von oben" geäußert hat, fokussiert die Vorrichtung bei jedem der veranschaulichenden Beispiele auf der dritten Maske von oben in dem Bereich der gesamten Inhalte, aber die Vorrichtung kann zum Beispiel auf der dritten Maske in dem Anzeigebereich der Inhalte in dem Anzeigefenster fokussieren.
In einem derartigen Fall kann die Anzeigebereichshalteeinheit 122 in 14 Layoutinformationen des derzeit auf der GUI-Anzeigeeinheit 102 angezeigten Anzeigebereichs halten, und die Absolutpositionsbestimmungseinheit 121 kann in dem Prozess in dem Schritt S6 in 5 die Absolutposition in dem Anzeigebereich bestimmen.
Wenn der Benutzer einen Absolutpositionsausdruck in dem Anzeigebereich oder den für die gesamten Inhalte explizit geäußert hat, kann jeder Ausdruck unterschieden werden, und ein entsprechender Betrieb kann ausgeführt werden. In diesem Fall enthalten die Bewegungserkennungsgrammatikdaten in der Erkennungsgrammatik 106 in 14 zum Ausführen einer Spracherkennung dieser Absolutpositionsausdrücke erforderliche Daten, und zum Verwalten von zum Beispiel "gesamt", "in Anzeigebereich" und dergleichen verwendete Daten werden zusätzlich zu den bei dem dritten veranschaulichenden Beispiel beschriebenen verwaltet.
In diesem Fall kann die Absolutposition der gesamten Inhalte oder die in dem Anzeigebereich in der Anzeigebereichshalteeinheit 122 basierend auf dem Spracherkennungsergebnis bestimmt werden, falls der Benutzer so etwas wie "dritte von oben der gesamten" oder "dritte von oben in Anzeigebereich" bezeichnet hat.
Wenn eine die Absolutposition der gesamten Inhalte oder die in dem Anzeigebereich angebende Bezeichnung weggelassen wird, tritt eine Mehrdeutigkeit auf. In einem derartigen Fall kann jede dieser Absolutpositionen als ein vorgeschriebener Wert festgelegt werden, oder die Absolutposition kann dynamisch zu der vorher bezeichneten Position geändert werden. Wenn die Absolutposition dynamisch geändert wird, können Bezeichnungsinformationen zum Auswählen jeder Absolutposition in der Anzeigebereichshalteeinheit 122 gehalten werden.
Der durch die Informationsverarbeitungsvorrichtung des Ausführungsbeispiels 1 auszuführende Prozess ist eine Anwendung des durch die Informationsverarbeitungsvorrichtung des ersten veranschaulichenden Beispiels ausgeführten Prozesses. Insbesondere in dem Prozess in dem Schritt S6 des Flussdiagramms in 5 des ersten veranschaulichenden Beispiels hält die Anzeigebereichshalteeinheit 122 zum Beispiel eine obere linke Position (3, 1) und untere rechte Position (9, 2) als Layoutinformationen des Anzeigebereichs, falls Eingabemasken 9 bis 18 der Inhalte in 6 auf der GUI-Anzeigeeinheit 102 angezeigt werden.
Wenn der Benutzer "zweite von unten" geäußert hat und besonders dann, wenn die Anzeigebereichshalteeinheit 122 zum Übernehmen des Anzeigebereichs als eine Vorgabe eingestellt ist, bestimmt die Absolutpositionsbestimmungseinheit 121 unter Bezugnahme auf die Anzeigebereichshalteeinheit 122 und die Eingabemaskeninformationstabelle in 11 Layoutinformationen (8, 1) des Eingabemaskennamens "Zugehörigkeit" als die zweite Eingabemaske von unten in dem Anzeigebereich und bewegt die Fokusposition zu der Position. Wenn demgegenüber die Anzeigebereichshalteeinheit 122 zum Übernehmen der gesamten Inhalte als eine Vorgabe eingestellt ist, bestimmt die Absolutpositionsbestimmungseinheit 121 Layoutinformationen (10, 1) des Eingabemaskennamens "Telefonnummer" als die zweite Eingabemaske von unten der gesamten Inhalte und bewegt die Fokusposition zu der Position.
Wie vorstehend beschrieben wird gemäß dem Ausführungsbeispiel 1 der Absolutpositionsausdruck der gesamten Inhalte/Absolutpositionsausdruck in dem Anzeigebereich explizit oder automatisch durch Sprache eingegeben, und eine Eingabemaske kann durch die eingegebene Sprache ausgewählt werden. Zusätzlich zu den bei dem dritten veranschaulichenden Beispiel beschriebenen Wirkungen kann eine flexiblere, genaue Eingabemaskenauswahl mittels eingegebener Sprache gemäß dem angezeigten Anzeigebereich realisiert werden.
<Ausführungsbeispiel 2>
Bei den vorstehenden veranschaulichenden Beispielen 1 bis 3 und dem Ausführungsbeispiel 1 werden als die Bewegungserkennungsgrammatikdaten nur zum Realisieren jedes Ausführungsbeispiels erforderliche Daten verwaltet. Alternativ können die Bewegungserkennungsgrammatikdaten derart konfiguriert sein, um zum Auswählen einer Eingabemaske durch den Eingabemaskennamen, den Relativpositionsausdruck oder den Absolutpositionsausdruck imstande zu sein.
Der Funktionsaufbau der Informationsverarbeitungsvorrichtung gemäß einem derartigen Ausführungsbeispiel ist in 15 gezeigt.
15 zeigt ein Funktionsblockschaltbild der Informationsverarbeitungsvorrichtung gemäß dem Ausführungsbeispiel 2 der vorliegenden Erfindung.
Mit Bezug auf 15 weist die Vorrichtung zusätzlich zu den jeweiligen Aufbaukomponenten gemäß 2, 10 und 14 der veranschaulichenden Beispiele 1 bis 3 und des Ausführungsbeispiels 1 eine Positionsauswahlverfahrensbestimmungseinheit 151 zum Bestimmen des Typs (Eingabemaskenname, Relativpositionsausdruck und Absolutpositionsausdruck) eines Fokuspositionsauswahlverfahrens auf.
Der durch die Informationsverarbeitungsvorrichtung des Ausführungsbeispiels 2 auszuführende Prozess wird nachstehend unter Verwendung von 16 beschrieben.
16 zeigt ein Flussdiagramm, das den durch die Informationsverarbeitungsvorrichtung des Ausführungsbeispiels 2 der vorliegenden Erfindung auszuführenden Prozess darstellt.
Es ist zu beachten, dass 16 nur von dem Flussdiagramm gemäß 5 des ersten veranschaulichenden Beispiels abweichende Abschnitte darstellt.
Wenn die Spracherkennungseinheit 108 eine Spracherkennung von eingegebenen Sprachdaten unter Bezugnahme auf die gelesene Erkennungsgrammatik 106 ausführt, bestimmt die Positionsauswahlverfahrensbestimmungseinheit 151 in einem Schritt S51 unter Bezugnahme auf die Maskennamenhalteeinheit 105, ob das Spracherkennungsergebnis eine Auswahl einer Eingabemaske ist. Falls das Spracherkennungsergebnis eine Auswahl einer Eingabemaske ist (JA in dem Schritt S51), rückt der Ablauf zu einem Schritt S61 vor, um den gleichen Prozess wie in dem Schritt S6 in dem Flussdiagramm gemäß 5 des ersten veranschaulichenden Beispiels auszuführen. Falls demgegenüber das Spracherkennungsergebnis nicht eine Auswahl einer Eingabemaske ist (NEIN in dem Schritt S51), rückt der Ablauf zu einem Schritt S52 vor.
Die Positionsauswahlverfahrensbestimmungseinheit 151 bestimmt in dem Schritt S52, ob das Spracherkennungsergebnis ein Relativpositionsausdruck ist. Bei dieser Bestimmung, zum Beispiel ob das Ende des Spracherkennungsergebnisses ein Positionsausdruck ist (zum Beispiel "obere", "untere", "rechte", "linke"), wird es bestimmt, dass das Spracherkennungsergebnis ein Relativpositionsausdruck ist.
Falls es in dem Schritt S52 bestimmt wird, dass das Spracherkennungsergebnis ein Relativpositionsausdruck ist (JA in dem Schritt S52), rückt der Ablauf zu einem Schritt S62 vor, um die gleichen Prozesse wie in den Schritten S71 und S72 in 12 des zweiten veranschaulichenden Beispiels auszuführen. Falls demgegenüber das Spracherkennungsergebnis nicht ein Relativpositionsausdruck ist (NEIN in dem Schritt S52), rückt der Ablauf zu einem Schritt S53 vor.
Die Positionsauswahlverfahrensbestimmungseinheit 151 bestimmt in dem Schritt S53, ob das Spracherkennungsergebnis ein Absolutpositionsausdruck ist. Bei dieser Bestimmung, zum Beispiel ob das Kopfende des Spracherkennungsergebnisses ein Positionsausdruck ist (zum Beispiel "von oben", "von unten", "von rechts" oder "von links" oder "der gesamten", "in Anzeigebereich" und ihre Synonyme), wird es bestimmt, dass das Spracherkennungsergebnis ein Absolutpositionsausdruck ist.
Falls es in dem Schritt S53 bestimmt wird, dass das Spracherkennungsergebnis ein Absolutpositionsausdruck ist (JA in dem Schritt S53), rückt der Ablauf zu einem Schritt S63 vor, um einen Prozess zum Ändern der Fokusposition basierend auf dem Absolutpositionsausdruck auszuführen, der bei dem dritten veranschaulichenden Beispiel und dem ersten Ausführungsbeispiel erläutert worden ist. Falls demgegenüber das Spracherkennungsergebnis nicht ein Absolutpositionsausdruck ist (NEIN in dem Schritt S53), rückt der Ablauf zu dem Schritt S8 vor.
Bei der Beschreibung des Ausführungsbeispiels 2 kann die Fokusposition durch das Auswahlverfahren unter Verwendung des Eingabemaskennamens, der Relativposition oder der Absolutposition ausgewählt werden. Es ist selbstverständlich, dass auch ein Aufbau realisiert werden kann, der zum Auswählen der Fokusposition unter Verwendung von zwei oder mehr beliebigen Auswahlverfahren der Verfahren in der Lage ist.
Wie vorstehend beschrieben kann gemäß dem Ausführungsbeispiel 2 zusätzlich zu den bei den veranschaulichenden Beispielen 1 bis 3 und dem Ausführungsbeispiel 1 beschriebenen Wirkungen eine flexiblere Eingabemaskenauswahlumgebung, die auf verschiedene Vorrichtungen angewendet werden kann, mittels eingegebener Sprache realisiert werden, da eine Eingabemaske durch eingegebene Sprache über eine Vielzahl von Typen von Auswahlverfahren ausgewählt werden kann.
VIERTES VERANSCHAULICHENDES BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
Wenn die in der Inhaltshalteeinheit 101 gehaltenen Inhalte unter Verwendung einer Dokumentauszeichnungssprache beschrieben werden, kann die Layoutbeziehungshalteeinheit 113 die Typen von Eingabemasken angebenden Identifizierungskennzeichen halten, und eine Eingabemaske kann durch eingegebene Sprache wie "n-te (Identifizierungskennzeichenname)" ausgewählt werden. 17 zeigt die Inhalte der in der Layoutbeziehungshalteeinheit 113 gehaltenen Eingabemaskeninformationstabelle bei einem derartigen Aufbau. In einem derartigen Fall erkennt die Absolutpositionsbestimmungseinheit 121 den ersten Radioschalter als Geschlecht und den zweiten Radioschalter als Tätigkeit. Wenn der Benutzer Sprache "zweiter Radioschalter" eingibt, wird die Fokusposition zu Tätigkeit bewegt, und der Ablauf rückt zu dem Schritt S7 vor.
Es ist zu beachten, dass die Typen von in der Layoutbeziehungshalteeinheit 113 gehaltenen Identifizierungskennzeichen nicht auf "Eingabe" und "Radio" beschränkt sind und der gleiche Prozess ausgeführt werden kann, falls ein ein Menü angebendes Identifizierungskennzeichen "Auswahl" oder ein ein Verknüpfungsziel angebendes Identifizierungskennzeichen "a" gehalten wird.
Wie vorstehend beschrieben kann gemäß dem vierten veranschaulichenden Beispiel eine flexiblere Eingabemaskenauswahl mittels eingegebener Sprache realisiert werden, da eine eingegebene Sprache durch eingegebene Sprache gemäß dem Typ des eine Eingabemaske angebenden Identifizierungskennzeichens ausgewählt werden kann.
FÜNFTES VERANSCHAULICHENDES BEISPIEL (nur zu Bezugszwecken enthalten und kein Ausführungsbeispiel)
Wenn Inhalte unter Verwendung einer Dokumentauszeichnungssprache beschrieben werden, sind viele Identifizierungskennzeichen vorhanden, die nicht für Spracherkennungseingaben verwendet werden, wie beispielsweise ein ein Zentrieren angebendes Identifizierungskennzeichen "center", ein eine neue Zeile angebendes Identifizierungskennzeichen "br" und dergleichen.
Folglich können bei dem vierten veranschaulichenden Beispiel die Typen von bei einer Fokusbewegung bei einer Spracherkennung verwendeten Identifizierungskennzeichen in einem Abschnitt, der eine Spracherkennung angibt, aufgelistet werden.
18 zeigt ein Beispiel für zum Ausführen einer Spracherkennung unter Verwendung einer Dokumentauszeichnungssprache verwendete Identifizierungskennzeichen. In 18 ist ein Beispiel für Identifizierungskennzeichen einer dem fünften veranschaulichenden Beispiel zugeordneten Spracherkennung angegeben, und die Identifizierungskennzeichen der Spracherkennung [<SpeechRecog...>] sind eine Beschreibung zum Ausführen einer Eingabe durch eine Spracherkennung.
In der GUI-Anzeigeeinheit 102 bei dem fünften veranschaulichenden Beispiel wird [<SpeechRecog...>] als "eine Spracherkennung ausführen und ihr Spracherkennungsergebnis anzeigen" interpretiert. Die bei einer Spracherkennung verwendete Erkennungsgrammatik 106 und eine Liste von Typen von bei einer Fokusbewegung bei einer Spracherkennung verwendeten Identifizierungskennzeichen können durch [grammar] bzw. [used_tag] bezeichnet werden. Bei diesem Beispiel gibt ein Identifizierungskennzeichen [<SpeechRecog...>] an, dass ein Erkennungsgrammatikwörterbuch [command.grm] verwendet wird, und drei verschiedene Identifizierungskennzeichen, das heißt ein Identifizierungskennzeichen "Eingabe", ein Identifizierungskennzeichen "Radio" und ein Identifizierungskennzeichen "a", werden bei einer Fokusbewegung verwendet.
Wie vorstehend beschrieben können gemäß dem fünften veranschaulichenden Beispiel die zum Ausführen einer Spracherkennung verwendeten Identifizierungskennzeichen effizienter in den Identifizierungskennzeichen in den Inhalten bestimmt werden, da zum Ausführen einer Spracherkennung verwendete Identifizierungskennzeichen zusammen in den Inhalten beschrieben sind. Da die zum Ausführen einer Spracherkennung verwendeten Identifizierungskennzeichen für jeweilige Inhalte beschrieben sind, braucht ferner selbst dann, wenn eine Eingabemaske durch eingegebene Sprache gemäß dem Typ von eine Eingabemaske angebendem Identifizierungskennzeichen ausgewählt wird, die Layoutbeziehungshalteeinheit 113 keine Eingabemaskeninformationstabelle in 17 zu halten, und die Speicherbetriebsmittel können gespart werden.
Es ist zu beachten, dass die vorliegende Erfindung einen Fall einschließt, in dem die Erfindung durch ein direktes oder indirektes Zuführen eines Programms (eines dem veranschaulichten Flussdiagramm bei jedem Ausführungsbeispiel entsprechenden Programms) von Software, die die Funktionen der vorstehend angeführten Ausführungsbeispiele für ein System oder eine Vorrichtung realisiert, und ein Auslesen und Ausführen des zugeführten Programmcodes durch einen Computer des Systems oder der Vorrichtung erreicht wird. In einem derartigen Fall ist die Form nicht auf ein Programm beschränkt, solange die Programmfunktion bereitgestellt werden kann.
Daher realisiert der zum Realisieren des Funktionsprozesses der vorliegenden Erfindung unter Verwendung eines Computers in einem Computer installierte Programmcode selbst die vorliegende Erfindung. Das heißt, die vorliegende Erfindung schließt das Computerprogramm selbst zum Realisieren des Funktionsprozesses der vorliegenden Erfindung ein.
In diesem Fall ist die Form des Programms nicht besonders beschränkt, und ein Objektcode, ein durch einen Interpretierer auszuführendes Programm, einem OS zuzuführende Skriptdaten und dergleichen können verwendet werden, solange sie die Programmfunktion aufweisen.
Als ein Aufzeichnungsträger zum Zuführen des Programms können zum Beispiel eine Diskette, eine Festplatte, eine optische Platte, eine magneto-optische Platte, eine MO, eine CD-ROM, eine CD-R, eine CD-RW, ein Magnetband, eine nichtflüchtige Speicherkarte, ein ROM, eine DVD (DVD-ROM, DVD-R) und dergleichen verwendet werden.
Als ein anderes Programmzuführungsverfahren kann unter Verwendung eines Browsers auf einem Client-Computer eine Verbindung mit einer gegebenen Homepage im Internet aufgebaut werden, und das Computerprogramm der vorliegenden Erfindung selbst oder eine Datei, die komprimiert ist und eine automatische Installationsfunktion aufweist, kann von der Homepage auf einen Aufzeichnungsträger wie beispielsweise eine Festplatte oder dergleichen heruntergeladen werden, so dass das Programm zugeführt wird. Ferner können Programmcodes, die das Programm der vorliegenden Erfindung bilden, in eine Vielzahl von Dateien zerlegt werden, und diese Dateien können von verschiedenen Homepages heruntergeladen werden. Das heißt, die vorliegende Erfindung schließt auch einen WWW-Server ein, der eine Vielzahl von Benutzern zum Herunterladen von Programmdateien zum Realisieren des Funktionsprozesses der vorliegenden Erfindung unter Verwendung eines Computers veranlasst.
Ferner kann ein Speicherträger wie beispielsweise eine CD-ROM oder dergleichen, der das verschlüsselte Programm der vorliegenden Erfindung speichert, an den Benutzer geliefert werden, dem Benutzer, der eine vorbestimmte Bedingung geklärt hat, kann es erlaubt werden, Schlüsselinformationen, die das Programm entschlüsseln, über das Internet von einer Homepage herunterzuladen, und das verschlüsselte Programm kann unter Verwendung der auf einem Computer zu installierenden Schlüsselinformationen ausgeführt werden, so dass die vorliegende Erfindung realisiert wird.
Die Funktionen der vorstehend angeführten Ausführungsbeispiele können nicht nur durch ein Ausführen des ausgelesenen Programmcodes durch den Computer, sondern auch durch einige oder alle von tatsächlichen Verarbeitungsbetriebsvorgängen, die durch ein auf dem Computer laufendes OS oder dergleichen auf der Grundlage einer Anweisung des Programms ausgeführt werden, realisiert werden.
Überdies können die Funktionen der vorstehend angeführten Ausführungsbeispiele durch einige oder alle von tatsächlichen Prozessen realisiert werden, die durch eine in einer Funktionserweiterungsplatine oder einer Funktionserweiterungseinheit, die in den Computer eingesetzt ist oder mit ihm verbunden ist, angeordnete CPU oder dergleichen ausgeführt werden, nachdem das aus dem Aufzeichnungsträger ausgelesene Programm in einen Speicher der Erweiterungsplatine oder -einheit geschrieben ist.

Claims

Informationsverarbeitungsvorrichtung zum Ausführen eines Prozesses mit Bezug auf eine Vielzahl von in auf einem Bildschirm angezeigten Inhaltsdaten enthaltenen Eingabemasken auf der Grundlage von eingegebener Sprache, wobei die Vorrichtung umfasst: eine Speichereinrichtung (113) zum Speichern von jeder Eingabemaske der Vielzahl von Eingabemasken zugeordneten Eingabemaskeninformationen einschließlich eine Position jeder Eingabemaske der Vielzahl von Eingabemasken angebenden ersten Layoutinformationen; eine Anzeigebereichshalteeinrichtung (122) zum Halten von zweiten Layoutinformationen eines derzeit auf dem Bildschirm angezeigten Anzeigebereichs; eine erste Anzeigesteuerungseinrichtung (102) zum derartigen Steuern, dass zumindest ein Teil der Inhaltsdaten auf dem Bildschirm angezeigt wird; eine Spracherkennungseinrichtung (108) zum Erkennen von eingegebener Sprache zum Erzeugen eines Spracherkennungsergebnisses; eine Bestimmungseinrichtung (106, 108, 112, 121) zum Bestimmen, ob das Spracherkennungsergebnis einen allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck oder einen einem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; eine erste Auswahleinrichtung (121) zum Auswählen von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und den ersten Layoutinformationen, falls das Spracherkennungsergebnis den allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck aufweist; eine zweite Auswahleinrichtung (121, 122) zum Auswählen von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und den zweiten Layoutinformationen für den derzeit angezeigten Teil der Inhaltsdaten, falls das Spracherkennungsergebnis den dem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; und eine zweite Anzeigesteuerungseinrichtung (109) zum Steuern eines Anzeigemusters einer den durch die erste oder zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske zum Unterscheiden der ausgewählten Maske von anderen angezeigten Masken.
Vorrichtung nach Anspruch 1, wobei die Speichereinrichtung (113) zum Speichern von Eingabemaskeninformationen einschließlich eines Eingabemaskennamens für jede Eingabemaske betreibbar ist.
Vorrichtung nach Anspruch 1, wobei die zweite Anzeigesteuerungseinrichtung zum Anzeigen der den durch die erste oder zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske in einem zweiten Anzeigemuster, das von einem ersten Anzeigemuster von anderen angezeigten Eingabemasken verschieden ist, betreibbar ist.
Vorrichtung nach Anspruch 1, wobei die zweite Anzeigesteuerungseinrichtung zum Anzeigen der den durch die erste oder zweite Auswahleinrichtung ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske in dem Zentrum des Bildschirms betreibbar ist.
Vorrichtung nach Anspruch 1, die ferner umfasst: eine Ausgabeeinrichtung zum Ausgeben eines Pieptons, wenn die Eingabemaskeninformationen durch die erste oder zweite Auswahleinrichtung ausgewählt werden.
Vorrichtung nach Anspruch 1, wobei die Spracherkennungseinrichtung (108) zum Erkennen der eingegebenen Sprache unter Verwendung von zum Erkennen von Sprache zum Bestimmen der Layoutinformationen verwendeten Spracherkennungsgrammatikdaten betreibbar ist.
Vorrichtung nach Anspruch 6, wobei die Spracherkennungsgrammatikdaten zum Erkennen von Relativpositionen der Eingabemasken angebenden Relativpositionsausdrücken und Absolutpositionen der Eingabemasken angebenden Absolutpositionsausdrücken verwendete Daten aufweisen.
Vorrichtung nach Anspruch 1, wobei die Eingabemasken durch ein Hypertext-Dokument realisiert sind und wobei die Eingabemaskeninformationen die Eingabemasken angebende Identifizierungskennzeichen aufweisen.
Vorrichtung nach Anspruch 8, wobei das Hypertext-Dokument ein zum Ausführen einer Spracherkennung durch die Spracherkennungseinrichtung (108) verwendetes Identifizierungskennzeichen beschreibt.
Informationsverarbeitungsverfahren zum Ausführen eines Prozesses mit Bezug auf eine Vielzahl von in auf einem Bildschirm angezeigten Inhaltsdaten enthaltenen Eingabemasken auf der Grundlage von eingegebener Sprache, wobei das Verfahren umfasst: einen ersten Anzeigesteuerungsschritt (S1) des derartigen Steuerns, dass zumindest ein Teil der Inhaltsdaten auf dem Bildschirm angezeigt wird; einen Halteschritt des Haltens von Layoutinformationen des derzeit auf dem Bildschirm angezeigten Anzeigebereichs; einen Spracherkennungsschritt (S4) des Erkennens von eingegebener Sprache zum Erzeugen eines Spracherkennungsergebnisses; Bestimmen (S5, S6), ob das Spracherkennungsergebnis einen allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck oder einen einem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; einen ersten Auswahlschritt (S6) des Auswählens von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und auf eine Position jeder Eingabemaske der Vielzahl von Eingabemasken angebenden gespeicherten ersten Layoutinformationen, falls das Spracherkennungsergebnis den allen den Inhaltsdaten entsprechenden Absolutpositionsausdruck aufweist; einen zweiten Auswahlschritt (S6) des Auswählens von Eingabemaskeninformationen basierend auf dem Absolutpositionsausdruck und auf gespeicherten zweiten Layoutinformationen eines derzeit auf dem Bildschirm angezeigten Anzeigebereichs, falls das Spracherkennungsergebnis den dem derzeit auf dem Bildschirm angezeigten Anzeigebereich entsprechenden Absolutpositionsausdruck aufweist; und einen zweiten Anzeigesteuerungsschritt (S7) des Steuerns eines Anzeigemusters einer den in dem ersten oder zweiten Auswahlschritt ausgewählten Eingabemaskeninformationen entsprechenden Eingabemaske zum Unterscheiden der ausgewählten Maske von anderen angezeigten Masken.
Verfahren nach Anspruch 10, wobei die Inhaltsdaten einen Eingabemaskennamen für jede Eingabemaske der Vielzahl von Eingabemasken aufweisen.
Verfahren nach Anspruch 10, wobei der zweite Anzeigesteuerungsschritt die durch den ersten oder zweiten Auswahlschritt ausgewählten Eingabemasken in einem zweiten Anzeigemuster, das von einem ersten Anzeigemuster von anderen angezeigten Eingabemasken verschieden ist, anzeigt.
Verfahren nach Anspruch 10, wobei der zweite Anzeigesteuerungsschritt die den durch den ersten oder zweiten Auswahlschritt ausgewählten Eingabemaskeninformationen entsprechende Eingabemaske in dem Zentrum des Bildschirms anzeigt.
Verfahren nach Anspruch 10, das ferner ein Ausgeben eines Pieptons, wenn die Eingabemaskeninformationen in dem ersten oder zweiten Auswahlschritt ausgewählt werden, umfasst.
Verfahren nach Anspruch 10, wobei der Spracherkennungsschritt die eingegebene Sprache unter Verwendung von zum Erkennen von Sprache zum Bestimmen der Layoutinformationen verwendeten Spracherkennungsgrammatikdaten erkennt.
Verfahren nach Anspruch 15, wobei die Spracherkennungsgrammatikdaten zum Erkennen von Relativpositionen der Eingabemasken angebenden Relativpositionsausdrücken und Absolutpositionen der Eingabemasken angebenden Absolutpositionsausdrücken verwendete Daten aufweisen.
Verfahren nach Anspruch 10, wobei die Inhaltsdaten ein Hypertext-Dokument sind und wobei die Eingabemaskeninformationen die Eingabemasken angebende Identifizierungskennzeichen aufweisen.
Verfahren nach Anspruch 17, wobei das Hypertext-Dokument ein zum Ausführen einer Spracherkennung durch den Spracherkennungsschritt verwendetes Identifizierungskennzeichen beschreibt.
Computerprogrammerzeugnis mit durch einen Computer ausführbaren Anweisungen zum Veranlassen einer programmierbaren Computervorrichtung zum Durchführen des Verfahrens nach einem der Ansprüche 10 bis 18, wenn sie auf der Computervorrichtung ausgeführt werden.
Computerprogrammerzeugnis nach Anspruch 19, mit einem durch einen Computer lesbaren Träger, der die durch einen Computer ausführbaren Anweisungen speichert.