-
Hintergrund
der Erfindung
-
Die
Erfindung betrifft eine Technik zum Vermitteln der Bereitstellung
von Information, Dienstleistungen usw. über ein Netzwerk. Genauer gesagt,
betrifft die Erfindung einen Vermittlungsprozess, wie er dann verwendet
wird, wenn das Format von Eingabedaten (wie einer Stimme oder eines
Bilds) von einer Clientvorrichtung (einer eine Dienstleistung anfordernden
Vorrichtung) verschieden von dem ist, das von der Servervorrichtung
(der die Dienstleistung bereitstellenden Vorrichtung) verwendet
wird, um Prozessinformation zum Bereitstellen einer Dienstleistung
zu verarbeiten.
-
Es
sei darauf hingewiesen, dass die Clientvorrichtung gemäß der Erfindung
an einem Fahrzeug angebracht sein kann.
-
Die
japanische Patentoffenlegungsveröffentlichung
JP-A-10-271223 (1998) offenbart eine Technik zum Vermitteln des
Zugriffs auf eine Website im Internet sowie die Erfassung von Information
von einer Website unter Verwendung einer Stimmeingabe.
-
Bei
dieser bekannten Technik führt
ein Telefon/Internet-Gatewayprozessor Prozesse wie die Erstellung
einer Kommunikations-Übertragungsstrecke,
einer Datenformatwandlung und einer Protokollwandlung auf eine gesprochene
Eingabeanweisung hin aus, um den Zugriff auf eine Website zu ermöglichen.
-
Andererseits
offenbart die japanische Patentoffenlegungsveröffentlichung JP-A-2000-112610 eine
bekannte Technik zur Spracherkennung, bei der mehrere Erkennungsverfahren
gehandhabt werden, einschließlich
einer Spracherkennung und einer Bilderkennung. Bei dieser Technik
werden Anzeigeinhalte an eine Erkennungsvorrichtung geschickt, die auf
Grundlage des Eintrags "Kategorie" bestimmt wird, der
den Typ der Ziel-Erkennungsvorrichtung anzeigt und in der Textbeschreibung
des Anzeigeinhalts enthalten ist.
-
WO-A-0005643
offenbart einen Stimmbrowser, der mit anwendungsabhängigen Wörterbüchern für die Spracherkennung
arbeitet.
-
Zusammenfassung
der Erfindung
-
Die
oben beschriebene bekannte Technik, wie sie in der japanischen Patentoffenlegung
Nr. JP-A-10-271223 (1998) beschrieben ist, verwendet nur den Telefon/Internet-Gatewayprozessor
44, um alle Stimmeingaben von mehreren Benutzern zu verarbeiten.
Jedoch verfügt
jede Spracherkennungsmaschine über
ihr mindestens eines eigenes spezifisches Gebiet, auf dem sie geeigneterweise
angewendet werden kann. Ihre Spracherkennungsgeschwindigkeit oder
-genauigkeit variiert abhängig vom
gesprochenen Inhalt (Gebiet) beträchtlich. Beispielsweise erkennt
eine Spracherkennungsmaschine für
das Patentgebiet Sprache (eine Stimme) betreffend Patente mit hoher
Geschwindigkeit und hoher Genauigkeit. Jedoch kann dieselbe Spracherkennungsmaschine
Sprache (eine Stimme) für
Nahrungsmittel nur mit sehr niedriger Geschwindigkeit bei verringerter
Genauigkeit erkennen.
-
Dies
bedeutet, dass die herkömmliche
Technik, die nur eine einzelne Vorrichtung zum Erkennen von Sprachinhalten
(Stimmen) auf mehreren Fachgebieten verwendet, die Spracherkennung
und eine anschließende
Dienstleistungsbereitstellung auf Grundlage der Spracherkennungsergebnisse
in einem mit dem Internet verbundenen Netzwerk, in das Sprachinformation
(Stimmen) zu verschiedenen Fachgebieten eingegeben werden, die verschiedene Dienstleistungen
anfordern, nicht effizient ausführen kann.
-
Übrigens
wird bei einer Dienstleistungen anfordernden Vorrichtung, die an
einem Fahrzeug angebracht ist, vorzugsweise Stimmeingabe zum Anfordern
einer Dienstleistung verwendet. Dies, da es das Verwenden von Stimmeingaben
selbst einem Fahrer ermöglicht,
eine Anweisung einzugeben. Andererseits ist es hoch wahrscheinlich,
dass eine von einem fahrenden Fahrzeug gelieferte Anforderung schnell
verarbeitet werden muss, da sich die Position des Benutzers (des
Fahrzeugs) jeden Augenblick ändert.
Als Beispiel sei ein Fall betrachtet, bei dem der Benutzer eine
Anweisung gesendet hat, die "nach
einem Restaurant in der Nähe
suchen" aussagt.
Wenn es einige Stunden benötigt,
um die Suche abzuschließen,
kann sich das aufgefundene Restaurant weit entfernt von der aktuellen
Fahrzeugposition befinden, für
die das Suchergebnis erhalten wurde, obwohl sie nahe bei der Position
liegt, von der aus die Anweisung gesendet wurde, was zum Problem,
dass das System keine geeignete Information liefern kann. Demgemäß ist es
hoch wahrscheinlich, dass dieselbe Erkennungsmaschine zum Verarbeiten
aller Typen von Anfragen zu einem Problem, wie es oben beschrieben
ist, führt.
-
Bei
der obigen Technik, wie sie in der japanischen Patentoffenlegungsveröffentlichung
Nr. JP-A-2000-112610 beschrieben ist, können Stimminhalte und Bilddaten
getrennt an eine Spracherkennungsvorrichtung bzw. eine Gebärdenerkennungsvorrichtung übertragen
werden. Jedoch ist die Technik nicht dazu konzipiert, eine Spracherkennungsmaschine
auf Grundlage des Inhalts jeder Sprach-Einzelinformation auszuwählen. Alle
Arten von Spracherkennungsmaschinen unterscheiden sich hinsichtlich
der Typen der Sprachinformation, die sie leicht erkennen können (Typen
von Sprachinformation, die mit hoher Geschwindigkeit bei hoher Genauigkeit
erkannt werden) und der Typen von Sprachinformation, die sie schwer
erkennen können
(Typen von Sprachinformation, die mit niedriger Geschwindigkeit
bei verringerter Genauigkeit erkannt werden), abhängig vom
Inhalt ihrer Wörterbücher voneinander.
Da bei der obigen herkömmlichen
Technik nur eine erste Erkennungsvorrichtung (Spracherkennung) 14A
zum Erkennen aller Sprachinhalte verwendet wird, ist es nicht möglich, Erkennungsvorrichtung
abhängig
von Sprachinhalten zu wechseln. So ist es erforderlich, die erste
Erkennungsvorrichtung selbst für
Sprachinhalte zu verwenden, die von ihr nur schwer erkennbar sind.
D.h., dass für
jede Anfrage, wie im Fall der in der japanischen Patentoffenlegungsveröffentlichung
Nr. JP-A-10-271223
(1998) offenbarten bekannten Technik, nur dieselbe Spracherkennungsmaschine
(Erkennungsvorrichtung) verwendet wird. Ferner berücksichtigt
die oben genannte herkömmliche
Technik, wie sie in der japanischen Patentoffenlegungsveröffentlichung
Nr. JP-A-2000-112610 offenbart ist, nicht die Verwendung von Spracherkennungsergebnissen
zum Bereitstellen/Empfangen von Dienstleistungen. Demgemäß verwendet
die obige herkömmliche
Technik den Eintrag "Kategorie", der als Textbeschreibung
enthalten ist, statt dessen zum Spezifizieren einer Ziel-Erkennungsvorrichtung,
aber sie berücksichtigt
nicht die Übereinstimmung
mit jedem Typ von Sprachinformation, die zu erkennen ist, mit dem
Inhalt der bereitzustellenden Dienstleistung. Im Ergebnis ist es
nicht möglich,
eine Spracherkennungsmaschine zu verwenden, die für eine Dienstleistung
geeignet ist, wie sie durch eine jeweilige Sprach-Einzelinformation
angefragt wird.
-
Um
das obige Problem zu lösen,
ist durch die Erfindung ein System geschaffen, bei der eine Spracherkennung
durch eine Spracherkennungsmaschine in einem Netzwerk ausgeführt wird,
die entsprechend jeder durch den Benutzer angefragten Dienstleistung
oder entsprechend der Stimmeingabe ausgewählt wird. Zu diesem Zweck sind
ein Dienstleistungs-Bereitstellsystem gemäß dem Anspruch 1, eine Dienstleistungs-Vermittlungsvorrichtung
gemäß dem Anspruch
6 und eine Dienstleistungs-Vermittlungsvorrichtung gemäß dem Anspruch
10 geschaffen. Ferner beinhaltet die Vorrichtung eine Dienstleistungs-Vermittlungsvorrichtung
zum Steuern des Systems in solcher Weise, dass es auf die obige
Weise arbeitet (Vermittlungsbereitstellung für jede Dienstleistung).
-
Gemäß einer
Erscheinungsform der Erfindung kann, um eine Spracherkennungsmaschine entsprechend
jeder Dienstleistung oder entsprechend einer Stimmeingabe zu spezifizieren,
kann die das Verknüpfungsziel
bildende Vorrichtung, wie sie jeder durch den Benutzer angefragten
Dienstleistung entspricht, Information speichern, die vorab die
ihr entsprechende Spracherkennungsmaschine anzeigt.
-
Um
eine Anfrage von einem Benutzer zur Dienstleistungsbereitstellung
zu verarbeiten, verwendet die Erfindung mehrere Computer in einem
Netzwerk, von denen jeder die ihm zugewiesene Funktion ausführt, um
gemeinsam eine Reihe von Spracherkennungsoperationen auszuführen.
-
Es
sei darauf hingewiesen, dass zusätzlich zur
Stimme die durch den Benutzer eingegebenen Daten solche Daten wie
Bilddaten enthalten können, deren
Datenformat nicht zur Bereitstellung einer Dienstleistung verwendet
wird.
-
Ferner
sei es darauf hingewiesen, dass VXML (Voice eXtended Markup Language)
dazu verwendet werden kann, die entsprechende Beziehung zwischen
jeder Spracherkennungsmaschine und jeder Dienstleistung oder jeder
Dienstleistungs-Bereitstellvorrichtung anzuzeigen.
-
Kurze Beschreibung
der Zeichnungen
-
1 ist
ein Diagramm, das die Gesamtkonfiguration eines Dienstleistungs-Bereitstellsystems gemäß einer
Ausführungsform
der Erfindung zeigt;
-
2 ist
ein Diagramm, das die Konfiguration einer Dienstleistungs-Bereitstellvorrichtung 200A gemäß der Ausführungsform
zeigt;
-
3 ist
ein Diagramm, das die Konfiguration einer Dienstleistungs-Vermittlungsvorrichtung 100 gemäß der Ausführungsform
zeigt;
-
4 ist
ein Diagramm, das die Konfigurationen eines Fahrzeugs 30C und
einer an diesem angebrachten Dienstleistungs-Anforderungsvorrichtung 3000 gemäß der Ausführungsform
zeigt;
-
5 ist
ein Flussdiagramm, das einen Prozessablauf des Dienstleistungs-Bereitstellsystems gemäß der Ausführungsform
zeigt;
-
6 ist
ein Flussdiagramm, das Prozessbeispiele in Schritten 505 und 506 in
der 5 zeigt;
-
7 ist
ein Diagramm zum Beschreiben der Entsprechungsbeziehung zwischen
jeder Dienstleistungs-Bereitstellvorrichtung, die ein Verknüpfungsziel
bildet, und jeder Spracherkennungsmaschine unter Verwendung der
VXML-Beschreibungssprache;
-
8 ist
eine Tabelle, die Kommunikationsprotokolle zeigt, wie sie zwischen
den Vorrichtungen verwendet werden;
-
9 ist
ein Diagramm, das die Konfiguration eines Systems unter Verwendung
der in der 8 dargestellten Kommunikationsprotokolle
zeigt;
-
10 ist
ein Diagramm, das eine Tabelle zeigt, wie sie durch die Dienstleistungs-Vermittlungsvorrichtung 100 verwendet
wird, um eine Dienstleistungs-Vermittlungsverarbeitung auszuführen;
-
11 ist
ebenfalls ein Diagramm zum Beschreiben der Entsprechungsbeziehung
zwischen jeder Dienstleistungs-Bereitstellvorrichtung, die ein Verknüpfungsziel
bildet, und jeder Spracherkennungsmaschine unter Verwendung der
VXML-Beschreibungssprache;
die 11 unterscheidet sich von der 7 dadurch,
dass in der 11 jede Spracherkennungsmaschine
dadurch spezifiziert ist, dass mehrere Bedingungen angegeben werden,
die durch die Maschine zu erfüllen
sind, anstatt dass diese direkt spezifiziert würde; und
-
12 ist
ein Flussdiagramm, das einen anderen Prozessablauf des Dienstleistungs-Bereitstellsystems
gemäß der Ausführungsform
zeigt. Zusätzlich
zu den Schritten in der 5 enthält der Prozessablauf der 12 einige
wenige spezielle Schritte, bei denen ein Bediener beteiligt ist.
-
Beschreibung
der bevorzugten Ausführungsformen
-
Nachfolgend
wird eine Ausführungsform
der Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
-
Die 1 ist
ein Diagramm, das die Gesamtkonfiguration eines Dienstleistungs-Bereitstellsystem gemäß der Erfindung
zeigt. Das System verfügt über eine
Dienstleistungs-Vermittlungsvorrichtung 100, mehrere Dienstleistungs-Bereitstellvorrichtungen 200A bis 200D sowie
mehrere Dienstleistungs-Anforderungsvorrichtungen 300A bis 300E,
die über
ein Netzwerk 1 miteinander verbunden sind. Die Dienstleistungs-Anforderungsvorrichtungen 300A bis 300E empfangen
jeweils eine Stimmeingabe von einem Benutzer, und die Dienstleistungs-Vermittlungsvorrichtung 100 leitet
die durch die Stimmeingabe spezifizierte Anfrage an eine der Dienstleistungs-Bereitstellvorrichtungen 200A bis 200D weiter,
die der angefragten Dienstleistung entspricht. Durch diese Anordnung
kann der Benutzer die Dienstleistung (einschließlich Information) von einer
der Dienstleistungs-Bereitstellvorrichtungen 200A bis 200D empfangen.
-
Der
obige Prozess wird nachfolgend dadurch weiter detailliert beschrieben,
dass ein Beispiel verwendet wird, bei dem die Dienstleistungs-Bereitstellvorrichtung 200A von
einem Restaurant A verwaltet wird und die Dienstleistungs-Anforderungsvorrichtung 300A ein
Autonavigationsgerät
ist, durch das eine Suche nach einem Restaurant angefragt wurde. Die
anderen Dienstleistungs-Bereitstellvorrichtungen 200B bis 200D enthalten
Computer, die durch ein Kino und andere Unterhaltungseinrichtungen
verwaltet werden. Die Dienstleistungs-Bereitstellvorrichtungen 200A bis 200D bieten
Dienstleistungen wie Informationsdienste zu Menüs, Arbeitsstunden, aktuell laufenden
Filmen, usw., Reservierungsdienste sowie den Verkauf von Karten
an. Ferner gehören
zu den anderen Dienstleistungs-Anforderungsvorrichtungen 300B bis 300E eine
an einem Fahrzeug angebrachte Vorrichtung, tragbare Telefone sowie Informationsverarbeitungsvorrichtungen
wie PCs, wie es in der Figur dargestellt ist (die Dienstleistungs-Anforderungsvorrichtung 300A ist
ein Autonavigationsgerät,
das, wie oben beschrieben, an einem Fahrzeug angebracht ist).
-
Unter
Bezugnahme auf das Flussdiagramm der 5 erfolgt
eine Beschreibung zum Prozessablauf des Dienstleistungs-Bereitstellsystems.
Für die folgende Beschreibung
ist angenommen, dass die Dienstleistungs-Anforderungsvorrichtung 3000 eine Dienstleistung
anfragt.
-
Die
Dienstleistungs-Anforderungsvorrichtung 3000 empfängt in einem
Schritt 501 eine Stimmeingabe von einem Benutzer über ein
Mikrofon 304 in einem Fahrzeug 30. Es wird angenommen, dass
der Benutzer eine Anfragemeldung dadurch erstellt hat, dass er sagte,
dass er ein Restaurant in der Nähe
mitgeteilt bekommen möchte.
-
Die
Dienstleistungs-Anforderungsvorrichtung 3000 überträgt die empfangenen
Stimmdaten über
das Netzwerk 1 unter Verwendung einer Schnittstelle 303 entsprechend
einem in einer Speichervorrichtung 301 gespeicherten Programm
in einem Schritt 502 an die Dienstleistungs-Bereitstellvorrichtung.
Es sei darauf hingewiesen, dass die übertragenen Daten die empfangenen
Stimmdaten selbst sein können,
oder sowohl die empfangenen Stimmdaten als auch deren Spracherkennungsergebnisse
(deren Datenformat gegenüber
dem der empfangenen Stimmdaten gewandelt ist). Ferner gehören zu den Typen
zu erkennender Stimmdaten die eingegebenen Stimmdaten selbst sowie
Daten, die dadurch erhalten werden, dass das Format derselben gewandelt
wird (z.B. die eingegebenen Stimmdaten codiert werden), so dass
sie für
die Spracherkennung geeignet sind.
-
Wenn
die Dienstleistungs-Anforderungsvorrichtung über zumindest sowohl einen
Stimmbrowser als auch ein Dialogorganisationsprogramm (Funktion)
verfügt,
wie dies für
die Dienstleistungs-Bereitstellvorrichtung 200A und 200B gilt,
kann sie selbst auf eine Benutzeranfrage reagieren. In der folgenden Beschreibung
der vorliegenden Ausführungsform
reagiert jedoch die Dienstleistungs-Vermittlungsvorrichtung 100 auf
die Benutzeranfrage. Eine Benutzeranfrage wird hierbei dadurch beantwortet,
dass Prozesse wie eine Unterstützung
einer Einengung der Suche entsprechend einem in der Dienstleistungs-Anforderungsvorrichtung
abgespeicherten Programm ausgeführt
werden. Beispielsweise reagiert die Dienstleistungs-Anforderungsvorrichtung beim
Erkennen der obigen Anfragemeldung, die "Bitte Restaurant in der Nähe mitteilen" aussagt, dadurch
auf die Anfrage, dass sie dem Benutzer die Frage "Welcher Restauranttyp:
japanisch, chinesisch, französisch
oder italienisch?" stellt,
um dem Benutzer zu einer weiteren Dateneingabe anzuregen, was entsprechend
einem Dialogorganisationsprogramm erfolgt, um dazu beizutragen,
die Suchanfrage zu verarbeiten. Die Frage kann entsprechend einem
Text-auf-Sprache- Programm
durch einen Lautsprecher 305 gestellt werden, oder sie
kann auf einer Anzeigeeinrichtung 306 angezeigt werden. Dieser
Prozess des Stellens einer Frage zum Einengen der Suche wird wiederholt,
bis die Dienstleistungs-Anforderungsvorrichtung
eine weitere Eingabe oder Anfrage nicht verarbeiten (erkennen) kann. Dann
verbindet die Dienstleistungs-Anforderungsvorrichtung mit der Dienstleistungs-Vermittlungsvorrichtung,
damit diese folgende Eingaben oder Anfragen (durch weiteres Stellen
von Fragen) verarbeiten kann. Diese Verbindung mit der Dienstleistungs-Vermittlungsvorrichtung
kann dadurch realisiert werden, dass der in der Dienstleistungs-Anforderungsvorrichtung
abgespeicherte Eintrag "Verknüpfungszielvorrichtung
für die
weitere Anfragenverarbeitung" eingestellt
wird und verwendet wird, wenn die Dienstleistungs-Anforderungsvorrichtung
eine Eingabe oder Anfrage nicht verarbeiten (erkennen) kann, damit
der Eintrag "Verknüpfungszielvorrichtung
für die
weitere Anfragenverarbeitung" die
Dienstleistungs-Vermittlungsvorrichtung angibt.
-
Ferner
kann der Erkennungsprozess für
die Eingaben durch die Dienstleistungs-Anforderungsvorrichtung und entweder
die Dienstleistungs-Vermittlungsvorrichtung oder die Dienstleistungs-Bereitstellvorrichtung
ausgeführt
werden. Wenn in diesem Fall die Dienstleistungs-Anforderungsvorrichtung eine
Eingabe nicht erkennen kann, wird sie an ihrer Stelle von der Dienstleistungs-Vermittlungsvorrichtung
oder der Dienstleistungs-Bereitstellvorrichtung erkannt, um den
Erkennungsprozess für
die Eingaben (Reaktion auf die Eingaben) fortzusetzen.
-
Es
sei darauf hingewiesen, dass der obige Zustand, gemäß dem es
nicht möglich
ist, eine Eingabe zu verarbeiten (auf sie zu reagieren), auch dann auftritt,
wenn die Dienstleistungs-Anforderungsvorrichtung eine Anfrage empfangen
hat, die Daten anfordert, über
die sie nicht verfügt
(beispielsweise dann, wenn die Dienstleistungs-Anforderungsvorrichtung
eine Frage wie "Welche
Website ist diese Woche die beliebteste?" empfangen hat). Der obige Zustand tritt
auch dann auf, wenn die Dienstleistungs-Anforderungsvorrichtung
eine Anfrage empfangen hat, die sie nicht erkennen kann, da sie
nicht über
die erforderlichen Daten (wie Wörter
und Grammatik) zum Erkennen derselben verfügt.
-
Zu
den Anfragetypen, die die Dienstleistungs-Anforderungsvorrichtung
selbst verarbeiten kann, gehören
Befehlsausführungsanfragen
zum Bedienen der Dienstleistungs-Anforderungsvorrichtung selbst
und der Einrichtungen um sie herum. Bei einer Dienstleistungs-Anforderungsvorrichtung
in einem Fahrzeug gehören
zu Einrichtungen um sie herum solche, die am Fahrzeug angebracht
sind, wie eine Klimaanlage, ein Scheibenwischer und ein Radio.
-
Die
Dienstleistungs-Anforderungsvorrichtungen 308A bis 300E können von
Typen sein, die nicht an einem Fahrzeug anbringbar sind. Wenn die Dienstleistungs-Anforderungsvorrichtungen 300A bis 300E an
Fahrzeugen angebracht sind, sind sie vorzugsweise über Funkübertragungsstrecken
mit dem Netzwerk 1 verbunden.
-
In
einem Schritt 503 empfängt
die Dienstleistungs-Vermittlungsvorrichtung 100, unter
Verwendung einer Schnittstelle 103, über das Netzwerk übertragene
Stimmdaten "Bitte
Restaurant in der Nähe
mitteilen".
-
Die
Dienstleistungs-Vermittlungsvorrichtung 300 erkennt die
empfangenen Stimmdaten unter Verwendung einer Verarbeitungsvorrichtung 102 und
eines Spracherkennungsprogramms oder eines anderen Typs von Erkennungsprogramm
in einem Schritt 504. Da die Meldung (Stimmdaten) das Wort "Nähe" enthält, führt die Dienstleistungs-Vermittlungsvorrichtung 100 einen
Prozess zum Erhalten der Position des fahrenden Fahrzeugs 310 aus.
Genauer gesagt, führt
die Dienstleistungs-Vermittlungsvorrichtung 100 beispielsweise
Folgendes aus. (1) Wenn die Dienstleistungs-Anforderungsvorrichtung 300C ein
Autonavigationssystem ist, erhält
die Dienstleistungs-Vermittlungsvorrichtung 100 Information
zur Position des fahrenden Fahrzeugs, wie sie im Autonavigationssystem
gespeichert ist. Oder alternativ, (2), fordert die Dienstleistungs-Vermittlungsvorrichtung 100 den Benutzer
dazu auf, die aktuelle Position unter Verwendung eines Dialogorganisationsprogramms
in die Dienstleistungs-Anforderungsvorrichtung 300C einzugeben.
Genauer gesagt, gibt im Fall (2) die Dienstleistungs-Vermittlungsvorrichtung 100 die
Meldung "Bitte aktuelle
Position eingeben" durch
Sprache aus einem Lautsprecher 305 oder durch Anzeige auf
einer Anzeigeeinrichtung 306 aus. Ob sich ein Restaurant "in der Nähe" des Fahrzeugs 3000 befindet, kann
dadurch bestimmt werden, dass geprüft wird, ob es sich innerhalb
einer vorbestimmten Entfernung vom Fahrzeug 30C befindet.
Dabei wird in einer Tabelle abgespeicherte Ortsinformation zu Restaurants verwendet.
-
Andererseits
wird eine in einer Speichervorrichtung 104 gespeicherte
Tabelle dazu verwendet, nach einem Restaurant eines gewünschten
Typs zu suchen. Wenn die Kategorie "Restaurant" mehrere Unterkategorien enthält, wird
das Dialogorganisationsprogramm so eingestellt, dass es dem Benutzer eine
Frage wie "Welcher
Restauranttyp: japanisch, chinesisch, französisch oder italienisch?" stellt, um den Benutzer
zu einer weiteren Dateneingabe anzuregen. Wenn ferner mehrere Restaurants
in einer Unterkategorie gespeichert sind, können die Namen aller Restaurants
nacheinander an die Dienstleistungs-Anforderungsvorrichtung 3000 ausgegeben werden.
Alternativ kann der Benutzer dazu aufgefordert werden, mindestens
eine Bedingung zum Spezifizieren eines Restaurants des gewünschten
Typs einzugeben. Beispielsweise speichert die Dienstleistungs-Vermittlungsvorrichtung 100 vorab
Bedingungen jedes Restaurants (Preis, Arbeitsstunden, Geschmacksrichtung,
Parkmöglichkeiten
und Fassungsvermögen
usw.) ab und sie fordert den Benutzer dazu auf, mindestens eine
Bedingung einzugeben, die mit diesen abgespeicherten Bedingungen
zu vergleichen ist.
-
In
einem Schritt 505 bestimmt die Dienstleistungs-Vermittlungsvorrichtung 100,
auf Grundlage der Erkennungsergebnisse aus den obigen eingegebenen
Daten, eine Spracherkennungsmaschine zur Erkennung von von der Dienstleistungs-Anforderungsvorrichtung 3000 gelieferten
Stimmdaten.
-
Ein
spezielles Beispiel des Schritts 505 wird unter Bezugnahme
auf die 6 beschrieben. Schritte 5051 und 5052 in
der 6 entsprechen dem Schritt 505.
-
Im
Schritt 5051 sucht die Verarbeitungsvorrichtung 102 in
der Dienstleistungs-Vermittlungsvorrichtung 100 nach einer
das Verknüpfungsziel
bildenden Dienstleistungs-Bereitstellvorrichtung, die die durch
die Stimmdaten angefragte Dienstleistung liefern soll. Diese Suche
wird unter Verwendung einer in der 10 dargestellten
Tabelle 105 ausgeführt.
Die Verarbeitungsvorrichtung 102 nimmt nämlich auf
jeden Sucheinzelpunkt in der Tabelle Bezug, wenn sie nach einem
passenden Restaurant sucht. Wenn bei der obigen Abfrage zu einem
gewünschten
Restauranttyp die Kategorie "italienisch" ausgewählt wird, werden
als Ergebnis der Suche Restaurants A bis D erhalten. Die Verarbeitungsvorrichtung 102 in
der Dienstleistungs-Vermittlungsvorrichtung 100 stellt dann
Fragen zur bevorzugten Geschmacksrichtung des Benutzers, zum Preisbereich,
zum gewünschten Ort
des Restaurants usw., um ein Restaurant, das der Anfrage durch den
Benutzer genügt,
und eine entsprechende Dienstleistungs-Bereitstellvorrichtung zu
spezifizieren. Bei diesem Beispiel wird angenommen, dass das Restaurant
A ausgewählt
wurde. Dann spezifiziert unter Verwendung der Tabelle die Dienstleistungs-Vermittlungsvorrichtung 100 eine das
Verknüpfungsziel
bildende Vorrichtung (beispielsweise einen Dienstleistungs-Bereitstellvorrichtung),
die dem Restaurant A entspricht. Es sei darauf hingewiesen, dass
mehrere Restaurants und mehrere ein Verknüpfungsziel bildende Vorrichtungen
ausgewählt
werden können.
-
Unter
Verwendung der Tabelle wird im Schritt 5052 eine Spracherkennungsmaschine
spezifiziert, die der spezifizierten, das Verknüpfungsziel bildenden Vorrichtung
entspricht. Es ist auch möglich,
die Spracherkennungsmaschine unter Verwendung ihrer Adresse, die
zur Verbindungsherstellung mit ihr verwendet wird, zu spezifizieren.
In der Tabelle können mehrere
Spracherkennungsmaschinen, statt einer, einer das Verknüpfungsziel
bildenden Vorrichtung als Kandidaten für eine Ziel-Spracherkennungsmaschine
zugeordnet sein. Bei dieser Anordnung können die Spracherkennungsmaschine-Kandidaten
dadurch auf einen einzelnen eingeengt werden, dass die Anfragen
des Benutzers berücksichtigt
werden, wie Punkte wie die Gebühren
zum Verwenden einer Spracherkennungsmaschine und deren Übersetzungsgenauigkeit.
Die obige Tabelle kann in einer anderen Informationsverarbeitungsvorrichtung
im Netzwerk enthalten sein. Die Spracherkennungsmaschine kann auch
unter Verwendung einer in der VXML-Beschreibungssprache geschriebenen Liste, wie
in der 7 dargestellt, anstatt durch eine allgemeine Tabelle
spezifiziert werden.
-
Ferner
kann eine in einem speziellen Format geschriebene Liste, wie in
der 11 dargestellt, anstelle der in der VXML-Beschreibungssprache
geschriebenen Liste in der 7 verwendet
werden. dieses Format spezifiziert jede Ziel-Spracherkennungsmaschine
unter Verwendung von Parametern wie "ngram", "bergein", "nbest" und "Vertrauenswürdigkeit", die jeweils eine
spezielle Bedingung angeben. Der Parameter "ngram" zeigt an, dass eine Reihe von Wörtern erkannt
werden sollte; "bergein" zeigt an, dass der
Benutzer einen Text-in-Sprache-Prozess
unterbrechen kann; "nbest" weist an, dass mehrere
Kandidaten des Spracherkennungsergebnisses ausgegeben werden; und "Vertrauenswürdigkeit" zeigt an, dass der
Zuverlässigkeitsgrad
der Spracherkennungsergebnisse ausgegeben werden sollte. D.h., dass
die 11 Bedingungen angibt, die zum Kennzeichnen einer
Spracherkennungsmaschine dienen, die eine Reihe von Wörtern erkennen
kann, während
ihres Sprachsyntheseprozesses eine Unterbrechung annehmen kann,
mehrere Kandidaten des Spracherkennungsergebnisses ausgeben kann
und den Zuverlässigkeitsgrad
ihrer Spracherkennungsergebnisse ausgeben kann.
-
Wenn
eine Ziel-Spracherkennungsmaschine unter Verwendung des in der 11 dargestellten Formats
spezifiziert wird, ist es möglich,
eine solche entweder aus einer Liste von Spracherkennungsmaschinen,
die zur das Verknüpfungsziel
bildenden Dienstleistungs-Bereitstellvorrichtung gehören, oder einer
Liste von Spracherkennungsmaschinen, die zu einer aktuelle vom System
verwendeten Dienstleistungs-Bereitstellvorrichtung gehören, auszuwählen.
-
Andererseits
können
mehrere Spracherkennungsmaschinen ausgewählt werden, anstatt dass eine
einzelne spezifiziert wird, um dieselbe Stimme unter Verwendung
jeder der ausgewählten
mehreren Spracherkennungsmaschinen zu erkennen. In diesem Fall ist
es möglich,
das am schnellsten erhaltene Erkennungsergebnis zu verwenden (d.h.,
dasjenige, das von der Spracherkennungsmaschine mit der Eigenschaft
der schnellsten Reaktion erhalten wird), um die Reaktionsgeschwindigkeit
zu erhöhen,
oder alternativ ist es möglich,
unter mehreren erhaltenen Erkennungsergebnissen das genaueste auszuwählen, um
die Erkennungsgenauigkeit zu erhöhen.
-
Bei
diesem Beispiel werden die Dienstleistungs-Bereitstellvorrichtung 200A und
eine zu ihr gehörende
Spracherkennungsmaschine ausgewählt.
-
Nach
dem Spezifizieren einer das Verknüpfungsziel bildenden Vorrichtung
und einer Spracherkennungsmaschine steuert die Dienstleistungs-Vermittlungsvorrichtung 100 das
System in solcher Weise, dass die spezifizierte, das Verknüpfungsziel
bildende Vorrichtung sowie die Spracherkennungsmaschine einen vorbestimmten
Prozess ausführen
können,
was in einem Schritt 506 erfolgt.
-
Unter
Bezugnahme auf die 6 wird ein spezielles Beispiel
des Schritts 506 beschrieben. Die Schritte 5061 und 5062 in
der 6 entsprechen dem Schritt 506.
-
In
einem Schritt 5061 wird die Vorrichtung, mit der eine Verbindung
besteht, gewechselt (oder es wird eine Übertragungsstrecke aufgebaut).
Beispielsweise erstellt die Dienstleistungs-Vermittlungsvorrichtung 100 eine
Verbindung zwischen der Dienstleistungs-Anforderungsvorrichtung 3000 und
der das Verknüpfungsziel
bildenden Dienstleistungs-Bereitstellvorrichtung A, so dass diese
Stimmdaten von einem Benutzer empfangen kann.
-
Im
Schritt 5062 wird das System so gesteuert, dass die im
Schritt 5052 spezifizierte Spracherkennungsmaschine Stimmdaten
erkennen kann. Dabei wird das System so eingestellt, dass die Stimmdaten
von der Dienstleistungs-Anforderungsvorrichtung 300C an
die Spracherkennungsmaschine übertragen
werden, die zur Dienstleistungs-Bereitstellvorrichtung 200A gehört.
-
Es
sei darauf hingewiesen, dass eine zu verwendende Spracherkennungsmaschine
nicht notwendigerweise eine solche ist, die zu einer Dienstleistungs-Bereitstellvorrichtung,
die eine angefragte Dienstleistung liefert, gehört. Beispielsweise kann die Dienstleistungs-Bereitstellvorrichtung 200D einen Spracherkennungsdienst
bereitstellen, und daher kann sie als Spracherkennungsmaschine für eine andere
Dienstleistungs-Bereitstellvorrichtung verwendet werden. Ferner
kann eine speziell zur Spracherkennung vorhandene Dienstleistungs-Bereitstellvorrichtung
auch dazu verwendet werden, die Stimmdaten zu erkennen. Eine zum
Spezifizieren einer Ziel-Spracherkennungsmaschine
verwendete Tabelle muss nicht notwendigerweise eine Spracherkennungsmaschine
für jede
Dienstleistungs-Bereitstellvorrichtung spezifizieren. Beispielweise
können
mehrere Spracherkennungsmaschinen und deren Prioritäten in der
Tabelle registriert sein. Wenn dann eine spezifizierte Dienstleistungs-Bereitstellvorrichtung über eine
Spracherkennungsmaschine verfügt,
wird diese verwendet. Andernfalls wird im Netzwerk unter Verwendung
der Tabelle nach einer Spracherkennungsmaschine auf einem Gebiet
gesucht, das zur Dienstleistung gehört, die durch die spezifizierte Dienstleistungs-Bereitstellvorrichtung
zu erbringen ist. Wenn bei der Suche keine geeignete Spracherkennungsmaschine
gefunden wird, kann der Aufbau dergestalt sein, dass die zur Dienstleistungs-Vermittlungsvorrichtung 100 gehörende Spracherkennungsmaschine
verwendet wird.
-
In
einem Schritt 507 erkennt die zur Dienstleistungs-Bereitstellvorrichtung 200A gehörende Spracherkennungsmaschine
eine Anfrage (Stimmdaten) von der Dienstleistungs-Anforderungsvorrichtung 3000.
In einem Schritt 508 führt
die Dienstleistungs-Bereitstellvorrichtung 200A eine Informationsverarbeitung
auf Grundlage der Erkennungsergebnisse der Stimmdaten aus, um eine
durch den Benutzer angefragte Dienstleistung zu liefern. Wenn beispielsweise
der Benutzer die Anfragemeldung "Ich würde gerne
ein Menü ansehen" eingegeben hat, gibt
die Dienstleistungs-Bereitstellvorrichtung 200A in der
Vorrichtung gespeicherte Menüdaten über das Netzwerk 1 auf
Grundlage der Erkennungsergebnisse durch die Spracherkennungsmaschine
im Schritt 508 an die Dienstleistungs- Anforderungsvorrichtung 3000 aus.
Dann gibt die Dienstleistungs-Anforderungsvorrichtung 300C das
Menü auf
dem Schirm der Anzeigeeinrichtung 304C aus und/oder sie
liest das Menü durch
den Lautsprecher 306C vor.
-
Zum
Erkennen von Stimmdaten kann, wie oben beschrieben, eine Spracherkennungsmaschine verwendet
werden, die zu einer Vorrichtung gehört, die nicht die spezifizierte
Dienstleistungs-Bereitstellvorrichtung ist. Es sei darauf hingewiesen,
dass der Empfang einer Dienstleistung und von Information im Schritt 509 durch
die Dienstleistungs-Vermittlungsvorrichtung 100 ausgeführt werden
kann.
-
Die 8 zeigt
ein Beispiel von Kommunikationsprotokollen, wie sie zwischen den
Vorrichtungen gemäß der vorliegenden
Ausführungsform
verwendet werden. Die 9 zeigt eine Konfiguration eines Systems
unter Verwendung der Kommunikationsprotokolle in der 8.
Es sei darauf hingewiesen, dass Datenformate, wie sie zwischen Kommunikationsvorrichtungen
verwendet werden, abhängig
von jeder Kommunikationsvorrichtung differieren können. Genauer
gesagt, kann ein Datenformat verwendet werden, das der Funktion
jeder Übertragungszielvorrichtung
genügt.
Beispielsweise kann die Dienstleistungs-Anforderungsvorrichtung 300A ein
Textformat verwenden, während
die Dienstleistungs-Anforderungsvorrichtung 300E Stimmdaten
selbst verwenden kann.
-
Die
Dienstleistungs-Anforderungsvorrichtung der vorliegenden Ausführungsform
verfügt
nur über
ein Text-in-Sprache-Programm sowie eine Spracherkennungsmaschine.
Jedoch können
entweder ein Dialogorganisationsprogramm oder ein Sprachbrowser
zur Dienstleistungs-Anforderungsvorrichtung hinzugefügt werden,
um einen Dialog mit dem Benutzer abzuarbeiten. Andererseits kann
die Dienstleistungs-Anforderungsvorrichtung nur über Sprach-Eingabe/Ausgabe-Funktion verfügen und kein
Programm zum Verarbeiten von Dialogen enthalten. Zur Dienstleistungs-Anforderungsvorrichtung kann
ein Sprachanalyseprogramm hinzugefügt werden, um Sprache zu analysieren.
-
Ferner
kann aus der Konfiguration der Dienstleistungs-Bereitstellvorrichtung 200A das
Information/Dienstleistungen bereitstellende Programm, das Dialogorganisationsprogramm
oder der Sprachbrowser weggelassen werden. Beispielsweise kann mindestens
eine dieser Einrichtungen aus den Dienstleistungs-Anforderungsvorrichtungen 200C und 200D weggelassen
werden, die einen Spracherkennungsdienst bereitstellen. Ferner benötigen einige
Dienstleistungs- Bereitstellvorrichtungen keinerlei
Spracherkennungsmaschine. Beispielsweise muss in der Dienstleistungs-Bereitstellvorrichtung 200B,
die Restaurantinformation liefert, keine Spracherkennungsmaschine
enthalten sein. In diesem Fall sucht die Dienstleistungs-Bereitstellvorrichtung 200B unter
Verwendung von Sprachdaten, die mit einer durch die Dienstleistungs-Vermittlungsvorrichtung 100 spezifizierten
Spracherkennungsmaschine erkannt wurden, nach Restaurantinformation,
und sie liefert als Ergebnis der Suche erhaltene Information.
-
Die
Dienstleistungs-Anforderungsvorrichtungen 300A bis 3000 können Wörterbücher über das Netzwerk 1 an
entfernten Stellen nutzen, um Sprache zu erkennen. In einem solche
Fall kann die Nutzungshäufigkeit
jedes Wörterbuchs
abgespeichert werden, damit Wörterbücher, deren
Benutzung häufiger
als eine vorbestimmte Anzahl ist, heruntergeladen oder in den Cache
geladen werden können.
-
Die
Erfindung kann so konfiguriert sein, dass dann, wenn eine Spracherkennungsoperation
fehlschlägt,
das System automatisch auf einen menschlichen Bediener zum Erkennen
der Sprache umschaltet. In der 1 kann beispielsweise
die Dienstleistungs-Bereitstellvorrichtung 200A über einen menschlichen
Bediener verfügen,
und wenn es ihrer Spracherkennungsmaschine nicht gelingt, Sprache zu
erkennen, schaltet sie automatisch auf den Bediener um, um auf die
Sprache zu reagieren.
-
Die 12 ist
ein Flussdiagramm, das den Prozess des Umschaltens auf einen Bediener,
wenn eine Spracherkennungsoperation fehlschlägt, zeigt. In einem Schritt 1207 beginnt
die Dienstleistungs-Bereitstellvorrichtung 200A damit,
eine Anfrage zu erkennen. Wenn es der Dienstleistungs-Bereitstellvorrichtung 200A nicht
gelingt, die Anfrage zu erkennen (Verzweigung N im Schritt 1208),
verbindet sie die Dienstleistungs-Anforderungsvorrichtung 300C mit dem
Bediener, damit dieser in einem Schritt 1209 über einen
Dialog zwischen dem Benutzer und ihm eine Eingabe vom Benutzer abfragen
kann. Nach dem Erkennen der Anfrage führt die Dienstleistungs-Bereitstellvorrichtung 200A in
einem Schritt 1210 eine Verarbeitung aus, wie sie zum Bereitstellen
einer Dienstleistung erforderlich ist, und sie liefert die angeforderte
Dienstleistung/Information in einem Schritt 1211 an die
Dienstleistungs-Rnforderungsvorrichtung 300C.
-
Sprache,
die einer Spracherkennung unterliegt, kann immer für eine vorbestimmte
Zeitperiode aufgezeichnet werden, und wenn eine Spracherkennungsoperation
fehlschlägt,
können
die aufgezeichneten Stimmdaten und die bis dahin erhaltenen Spracherkennungsergebnisse
an den Bediener geliefert werden. Durch diese Anordnung kann sich
der Bediener die vorigen Dialoge anhören und auf die Spracherkennungsergebnisse
Bezug zu nehmen, um schnell zu verstehen, was angefragt oder gesprochen
wurde, ohne dass er die tatsächliche
Unterhaltung zwischen dem Benutzer und der Dienstleistungs-Bereitstellvorrichtung
dauernd anhören
müsste,
was es ermöglicht,
gleichmäßig auf
den Bediener zum Reagieren auf Eingaben umzuschalten.
-
Es
sei darauf hingewiesen, dass zwar bei der obigen Beschreibung der
vorliegenden Ausführungsform
angenommen ist, dass der Bediener in der Dienstleistungs-Bereitstellvorrichtung
vorhanden ist, jedoch kann es statt dessen die Dienstleistungs-Vermittlungsvorrichtung
sein kann, die statt dessen über den
Bediener verfügt.
-
Wie
oben beschrieben, beinhaltet die Bereitstellung verschiedener Dienstleistungen
zusätzlich zu
einem Restaurantsuchdienst, der Eingabe verschiedener Typen von
Eingabedaten sowie verschiedene Systeme, in denen Vorrichtungen
gemäß der Erfindung
installiert sind. Beispielsweise beinhaltet die Erfindung Bild,
Text usw. als Eingabedaten zusätzlich
zu Sprache. Auch beinhaltet die Erfindung als Systeme Computer in
Haushalten, mobile Computer sowie tragbare Telefone, zusätzlich zu
Fahrzeugen, an denen eine erfindungsgemäße Vorrichtung angebracht ist.
-
Zur
Erfindung gehören
verschiedene Modi der Dienstleistungs-Bereitstellvorrichtung, zusätzlich zur
Dienstleistungs-Bereitstellvorrichtung 200A und jede Dienstleistungs-Bereitstellvorrichtung
führt eine Verarbeitung
entsprechend ihrer Funktion aus. Beispielsweise führt eine
Dienstleistungs-Bereitstellvorrichtung ohne Spracherkennungsmaschine
eine Informationsverarbeitung zum Bereitstellen einer Dienstleistung
unter Verwendung von Erkennungsergebnissen aus, die durch eine Spracherkennungsmaschine
einer anderen Vorrichtung geliefert werden. In ähnlicher Weise beinhaltet die
Erfindung auch verschiedene Modi der Dienstleistungs-Anforderungsvorrichtung
zusätzlich
zu dem der Dienstleistungs-Anforderungsvorrichtung 300C und
jede Dienstleistungs-Anforderungsvorrichtung
führt eine Verarbeitung
entsprechend ihrer Funktion aus. Beispielsweise führt die
Dienstleistungs-Anforderungsvorrichtung 300A eine Spracherkennung
und eine Verarbeitung eines Dialogs mit dem Benutzer innerhalb ihres
Funktionsvermögens
aus.
-
Die
Erfindung ermöglicht
es, eine Dienstleistungsanfrage in einem Netzwerk schnell und genau zu
erkennen. Demgemäß ist es
möglich,
auf effiziente Weise eine angeforderte Dienstleistung bereitzustellen.