DE60125597T2

DE60125597T2 - Vorrichtung für die Dienstleistungsvermittlung

Info

Publication number: DE60125597T2
Application number: DE60125597T
Authority: DE
Inventors: Manabu Hitachi Ltd. Intell. Prop. Group Niie; Makoto Hitachi Ltd. Intell. Prop. Group Shioya; Seiji Hitachi Ltd. Intell. Prop. Group Ukai; Toshihiro Hitachi Ltd. Int. Prop. Group Kujirai; Yoshito Hitachi Ltd. Int. Prop. Group Nejime; Tadashi Hitachi Ltd. Int. Prop. Group Kamiwaki; Toshiichirou Hitachi Ltd. Int. Prop. Gr. Sasaki; Naoyuki Hitachi Ltd. Hitachi Ltd. Intell. Prop. Group. Koga
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2000-08-31
Filing date: 2001-03-06
Publication date: 2007-05-03
Anticipated expiration: 2021-03-07
Also published as: DE60125597D1; US20020026319A1; EP1376418A2; EP1376418B1; EP1376418A3

Description

Hintergrund der Erfindung
Die Erfindung betrifft eine Technik zum Vermitteln der Bereitstellung von Information, Dienstleistungen usw. über ein Netzwerk. Genauer gesagt, betrifft die Erfindung einen Vermittlungsprozess, wie er dann verwendet wird, wenn das Format von Eingabedaten (wie einer Stimme oder eines Bilds) von einer Clientvorrichtung (einer eine Dienstleistung anfordernden Vorrichtung) verschieden von dem ist, das von der Servervorrichtung (der die Dienstleistung bereitstellenden Vorrichtung) verwendet wird, um Prozessinformation zum Bereitstellen einer Dienstleistung zu verarbeiten.
Es sei darauf hingewiesen, dass die Clientvorrichtung gemäß der Erfindung an einem Fahrzeug angebracht sein kann.
Die japanische Patentoffenlegungsveröffentlichung JP-A-10-271223 (1998) offenbart eine Technik zum Vermitteln des Zugriffs auf eine Website im Internet sowie die Erfassung von Information von einer Website unter Verwendung einer Stimmeingabe.
Bei dieser bekannten Technik führt ein Telefon/Internet-Gatewayprozessor Prozesse wie die Erstellung einer Kommunikations-Übertragungsstrecke, einer Datenformatwandlung und einer Protokollwandlung auf eine gesprochene Eingabeanweisung hin aus, um den Zugriff auf eine Website zu ermöglichen.
Andererseits offenbart die japanische Patentoffenlegungsveröffentlichung JP-A-2000-112610 eine bekannte Technik zur Spracherkennung, bei der mehrere Erkennungsverfahren gehandhabt werden, einschließlich einer Spracherkennung und einer Bilderkennung. Bei dieser Technik werden Anzeigeinhalte an eine Erkennungsvorrichtung geschickt, die auf Grundlage des Eintrags "Kategorie" bestimmt wird, der den Typ der Ziel-Erkennungsvorrichtung anzeigt und in der Textbeschreibung des Anzeigeinhalts enthalten ist.
WO-A-0005643 offenbart einen Stimmbrowser, der mit anwendungsabhängigen Wörterbüchern für die Spracherkennung arbeitet.
Zusammenfassung der Erfindung
Die oben beschriebene bekannte Technik, wie sie in der japanischen Patentoffenlegung Nr. JP-A-10-271223 (1998) beschrieben ist, verwendet nur den Telefon/Internet-Gatewayprozessor 44, um alle Stimmeingaben von mehreren Benutzern zu verarbeiten. Jedoch verfügt jede Spracherkennungsmaschine über ihr mindestens eines eigenes spezifisches Gebiet, auf dem sie geeigneterweise angewendet werden kann. Ihre Spracherkennungsgeschwindigkeit oder -genauigkeit variiert abhängig vom gesprochenen Inhalt (Gebiet) beträchtlich. Beispielsweise erkennt eine Spracherkennungsmaschine für das Patentgebiet Sprache (eine Stimme) betreffend Patente mit hoher Geschwindigkeit und hoher Genauigkeit. Jedoch kann dieselbe Spracherkennungsmaschine Sprache (eine Stimme) für Nahrungsmittel nur mit sehr niedriger Geschwindigkeit bei verringerter Genauigkeit erkennen.
Dies bedeutet, dass die herkömmliche Technik, die nur eine einzelne Vorrichtung zum Erkennen von Sprachinhalten (Stimmen) auf mehreren Fachgebieten verwendet, die Spracherkennung und eine anschließende Dienstleistungsbereitstellung auf Grundlage der Spracherkennungsergebnisse in einem mit dem Internet verbundenen Netzwerk, in das Sprachinformation (Stimmen) zu verschiedenen Fachgebieten eingegeben werden, die verschiedene Dienstleistungen anfordern, nicht effizient ausführen kann.
Übrigens wird bei einer Dienstleistungen anfordernden Vorrichtung, die an einem Fahrzeug angebracht ist, vorzugsweise Stimmeingabe zum Anfordern einer Dienstleistung verwendet. Dies, da es das Verwenden von Stimmeingaben selbst einem Fahrer ermöglicht, eine Anweisung einzugeben. Andererseits ist es hoch wahrscheinlich, dass eine von einem fahrenden Fahrzeug gelieferte Anforderung schnell verarbeitet werden muss, da sich die Position des Benutzers (des Fahrzeugs) jeden Augenblick ändert. Als Beispiel sei ein Fall betrachtet, bei dem der Benutzer eine Anweisung gesendet hat, die "nach einem Restaurant in der Nähe suchen" aussagt. Wenn es einige Stunden benötigt, um die Suche abzuschließen, kann sich das aufgefundene Restaurant weit entfernt von der aktuellen Fahrzeugposition befinden, für die das Suchergebnis erhalten wurde, obwohl sie nahe bei der Position liegt, von der aus die Anweisung gesendet wurde, was zum Problem, dass das System keine geeignete Information liefern kann. Demgemäß ist es hoch wahrscheinlich, dass dieselbe Erkennungsmaschine zum Verarbeiten aller Typen von Anfragen zu einem Problem, wie es oben beschrieben ist, führt.
Bei der obigen Technik, wie sie in der japanischen Patentoffenlegungsveröffentlichung Nr. JP-A-2000-112610 beschrieben ist, können Stimminhalte und Bilddaten getrennt an eine Spracherkennungsvorrichtung bzw. eine Gebärdenerkennungsvorrichtung übertragen werden. Jedoch ist die Technik nicht dazu konzipiert, eine Spracherkennungsmaschine auf Grundlage des Inhalts jeder Sprach-Einzelinformation auszuwählen. Alle Arten von Spracherkennungsmaschinen unterscheiden sich hinsichtlich der Typen der Sprachinformation, die sie leicht erkennen können (Typen von Sprachinformation, die mit hoher Geschwindigkeit bei hoher Genauigkeit erkannt werden) und der Typen von Sprachinformation, die sie schwer erkennen können (Typen von Sprachinformation, die mit niedriger Geschwindigkeit bei verringerter Genauigkeit erkannt werden), abhängig vom Inhalt ihrer Wörterbücher voneinander. Da bei der obigen herkömmlichen Technik nur eine erste Erkennungsvorrichtung (Spracherkennung) 14A zum Erkennen aller Sprachinhalte verwendet wird, ist es nicht möglich, Erkennungsvorrichtung abhängig von Sprachinhalten zu wechseln. So ist es erforderlich, die erste Erkennungsvorrichtung selbst für Sprachinhalte zu verwenden, die von ihr nur schwer erkennbar sind. D.h., dass für jede Anfrage, wie im Fall der in der japanischen Patentoffenlegungsveröffentlichung Nr. JP-A-10-271223 (1998) offenbarten bekannten Technik, nur dieselbe Spracherkennungsmaschine (Erkennungsvorrichtung) verwendet wird. Ferner berücksichtigt die oben genannte herkömmliche Technik, wie sie in der japanischen Patentoffenlegungsveröffentlichung Nr. JP-A-2000-112610 offenbart ist, nicht die Verwendung von Spracherkennungsergebnissen zum Bereitstellen/Empfangen von Dienstleistungen. Demgemäß verwendet die obige herkömmliche Technik den Eintrag "Kategorie", der als Textbeschreibung enthalten ist, statt dessen zum Spezifizieren einer Ziel-Erkennungsvorrichtung, aber sie berücksichtigt nicht die Übereinstimmung mit jedem Typ von Sprachinformation, die zu erkennen ist, mit dem Inhalt der bereitzustellenden Dienstleistung. Im Ergebnis ist es nicht möglich, eine Spracherkennungsmaschine zu verwenden, die für eine Dienstleistung geeignet ist, wie sie durch eine jeweilige Sprach-Einzelinformation angefragt wird.
Um das obige Problem zu lösen, ist durch die Erfindung ein System geschaffen, bei der eine Spracherkennung durch eine Spracherkennungsmaschine in einem Netzwerk ausgeführt wird, die entsprechend jeder durch den Benutzer angefragten Dienstleistung oder entsprechend der Stimmeingabe ausgewählt wird. Zu diesem Zweck sind ein Dienstleistungs-Bereitstellsystem gemäß dem Anspruch 1, eine Dienstleistungs-Vermittlungsvorrichtung gemäß dem Anspruch 6 und eine Dienstleistungs-Vermittlungsvorrichtung gemäß dem Anspruch 10 geschaffen. Ferner beinhaltet die Vorrichtung eine Dienstleistungs-Vermittlungsvorrichtung zum Steuern des Systems in solcher Weise, dass es auf die obige Weise arbeitet (Vermittlungsbereitstellung für jede Dienstleistung).
Gemäß einer Erscheinungsform der Erfindung kann, um eine Spracherkennungsmaschine entsprechend jeder Dienstleistung oder entsprechend einer Stimmeingabe zu spezifizieren, kann die das Verknüpfungsziel bildende Vorrichtung, wie sie jeder durch den Benutzer angefragten Dienstleistung entspricht, Information speichern, die vorab die ihr entsprechende Spracherkennungsmaschine anzeigt.
Um eine Anfrage von einem Benutzer zur Dienstleistungsbereitstellung zu verarbeiten, verwendet die Erfindung mehrere Computer in einem Netzwerk, von denen jeder die ihm zugewiesene Funktion ausführt, um gemeinsam eine Reihe von Spracherkennungsoperationen auszuführen.
Es sei darauf hingewiesen, dass zusätzlich zur Stimme die durch den Benutzer eingegebenen Daten solche Daten wie Bilddaten enthalten können, deren Datenformat nicht zur Bereitstellung einer Dienstleistung verwendet wird.
Ferner sei es darauf hingewiesen, dass VXML (Voice eXtended Markup Language) dazu verwendet werden kann, die entsprechende Beziehung zwischen jeder Spracherkennungsmaschine und jeder Dienstleistung oder jeder Dienstleistungs-Bereitstellvorrichtung anzuzeigen.
Kurze Beschreibung der Zeichnungen
1 ist ein Diagramm, das die Gesamtkonfiguration eines Dienstleistungs-Bereitstellsystems gemäß einer Ausführungsform der Erfindung zeigt;
2 ist ein Diagramm, das die Konfiguration einer Dienstleistungs-Bereitstellvorrichtung 200A gemäß der Ausführungsform zeigt;
3 ist ein Diagramm, das die Konfiguration einer Dienstleistungs-Vermittlungsvorrichtung 100 gemäß der Ausführungsform zeigt;
4 ist ein Diagramm, das die Konfigurationen eines Fahrzeugs 30C und einer an diesem angebrachten Dienstleistungs-Anforderungsvorrichtung 3000 gemäß der Ausführungsform zeigt;
5 ist ein Flussdiagramm, das einen Prozessablauf des Dienstleistungs-Bereitstellsystems gemäß der Ausführungsform zeigt;
6 ist ein Flussdiagramm, das Prozessbeispiele in Schritten 505 und 506 in der 5 zeigt;
7 ist ein Diagramm zum Beschreiben der Entsprechungsbeziehung zwischen jeder Dienstleistungs-Bereitstellvorrichtung, die ein Verknüpfungsziel bildet, und jeder Spracherkennungsmaschine unter Verwendung der VXML-Beschreibungssprache;
8 ist eine Tabelle, die Kommunikationsprotokolle zeigt, wie sie zwischen den Vorrichtungen verwendet werden;
9 ist ein Diagramm, das die Konfiguration eines Systems unter Verwendung der in der 8 dargestellten Kommunikationsprotokolle zeigt;
10 ist ein Diagramm, das eine Tabelle zeigt, wie sie durch die Dienstleistungs-Vermittlungsvorrichtung 100 verwendet wird, um eine Dienstleistungs-Vermittlungsverarbeitung auszuführen;
11 ist ebenfalls ein Diagramm zum Beschreiben der Entsprechungsbeziehung zwischen jeder Dienstleistungs-Bereitstellvorrichtung, die ein Verknüpfungsziel bildet, und jeder Spracherkennungsmaschine unter Verwendung der VXML-Beschreibungssprache; die 11 unterscheidet sich von der 7 dadurch, dass in der 11 jede Spracherkennungsmaschine dadurch spezifiziert ist, dass mehrere Bedingungen angegeben werden, die durch die Maschine zu erfüllen sind, anstatt dass diese direkt spezifiziert würde; und
12 ist ein Flussdiagramm, das einen anderen Prozessablauf des Dienstleistungs-Bereitstellsystems gemäß der Ausführungsform zeigt. Zusätzlich zu den Schritten in der 5 enthält der Prozessablauf der 12 einige wenige spezielle Schritte, bei denen ein Bediener beteiligt ist.
Beschreibung der bevorzugten Ausführungsformen
Nachfolgend wird eine Ausführungsform der Erfindung unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
Die 1 ist ein Diagramm, das die Gesamtkonfiguration eines Dienstleistungs-Bereitstellsystem gemäß der Erfindung zeigt. Das System verfügt über eine Dienstleistungs-Vermittlungsvorrichtung 100, mehrere Dienstleistungs-Bereitstellvorrichtungen 200A bis 200D sowie mehrere Dienstleistungs-Anforderungsvorrichtungen 300A bis 300E, die über ein Netzwerk 1 miteinander verbunden sind. Die Dienstleistungs-Anforderungsvorrichtungen 300A bis 300E empfangen jeweils eine Stimmeingabe von einem Benutzer, und die Dienstleistungs-Vermittlungsvorrichtung 100 leitet die durch die Stimmeingabe spezifizierte Anfrage an eine der Dienstleistungs-Bereitstellvorrichtungen 200A bis 200D weiter, die der angefragten Dienstleistung entspricht. Durch diese Anordnung kann der Benutzer die Dienstleistung (einschließlich Information) von einer der Dienstleistungs-Bereitstellvorrichtungen 200A bis 200D empfangen.
Der obige Prozess wird nachfolgend dadurch weiter detailliert beschrieben, dass ein Beispiel verwendet wird, bei dem die Dienstleistungs-Bereitstellvorrichtung 200A von einem Restaurant A verwaltet wird und die Dienstleistungs-Anforderungsvorrichtung 300A ein Autonavigationsgerät ist, durch das eine Suche nach einem Restaurant angefragt wurde. Die anderen Dienstleistungs-Bereitstellvorrichtungen 200B bis 200D enthalten Computer, die durch ein Kino und andere Unterhaltungseinrichtungen verwaltet werden. Die Dienstleistungs-Bereitstellvorrichtungen 200A bis 200D bieten Dienstleistungen wie Informationsdienste zu Menüs, Arbeitsstunden, aktuell laufenden Filmen, usw., Reservierungsdienste sowie den Verkauf von Karten an. Ferner gehören zu den anderen Dienstleistungs-Anforderungsvorrichtungen 300B bis 300E eine an einem Fahrzeug angebrachte Vorrichtung, tragbare Telefone sowie Informationsverarbeitungsvorrichtungen wie PCs, wie es in der Figur dargestellt ist (die Dienstleistungs-Anforderungsvorrichtung 300A ist ein Autonavigationsgerät, das, wie oben beschrieben, an einem Fahrzeug angebracht ist).
Unter Bezugnahme auf das Flussdiagramm der 5 erfolgt eine Beschreibung zum Prozessablauf des Dienstleistungs-Bereitstellsystems. Für die folgende Beschreibung ist angenommen, dass die Dienstleistungs-Anforderungsvorrichtung 3000 eine Dienstleistung anfragt.
Die Dienstleistungs-Anforderungsvorrichtung 3000 empfängt in einem Schritt 501 eine Stimmeingabe von einem Benutzer über ein Mikrofon 304 in einem Fahrzeug 30. Es wird angenommen, dass der Benutzer eine Anfragemeldung dadurch erstellt hat, dass er sagte, dass er ein Restaurant in der Nähe mitgeteilt bekommen möchte.
Die Dienstleistungs-Anforderungsvorrichtung 3000 überträgt die empfangenen Stimmdaten über das Netzwerk 1 unter Verwendung einer Schnittstelle 303 entsprechend einem in einer Speichervorrichtung 301 gespeicherten Programm in einem Schritt 502 an die Dienstleistungs-Bereitstellvorrichtung. Es sei darauf hingewiesen, dass die übertragenen Daten die empfangenen Stimmdaten selbst sein können, oder sowohl die empfangenen Stimmdaten als auch deren Spracherkennungsergebnisse (deren Datenformat gegenüber dem der empfangenen Stimmdaten gewandelt ist). Ferner gehören zu den Typen zu erkennender Stimmdaten die eingegebenen Stimmdaten selbst sowie Daten, die dadurch erhalten werden, dass das Format derselben gewandelt wird (z.B. die eingegebenen Stimmdaten codiert werden), so dass sie für die Spracherkennung geeignet sind.
Wenn die Dienstleistungs-Anforderungsvorrichtung über zumindest sowohl einen Stimmbrowser als auch ein Dialogorganisationsprogramm (Funktion) verfügt, wie dies für die Dienstleistungs-Bereitstellvorrichtung 200A und 200B gilt, kann sie selbst auf eine Benutzeranfrage reagieren. In der folgenden Beschreibung der vorliegenden Ausführungsform reagiert jedoch die Dienstleistungs-Vermittlungsvorrichtung 100 auf die Benutzeranfrage. Eine Benutzeranfrage wird hierbei dadurch beantwortet, dass Prozesse wie eine Unterstützung einer Einengung der Suche entsprechend einem in der Dienstleistungs-Anforderungsvorrichtung abgespeicherten Programm ausgeführt werden. Beispielsweise reagiert die Dienstleistungs-Anforderungsvorrichtung beim Erkennen der obigen Anfragemeldung, die "Bitte Restaurant in der Nähe mitteilen" aussagt, dadurch auf die Anfrage, dass sie dem Benutzer die Frage "Welcher Restauranttyp: japanisch, chinesisch, französisch oder italienisch?" stellt, um dem Benutzer zu einer weiteren Dateneingabe anzuregen, was entsprechend einem Dialogorganisationsprogramm erfolgt, um dazu beizutragen, die Suchanfrage zu verarbeiten. Die Frage kann entsprechend einem Text-auf-Sprache- Programm durch einen Lautsprecher 305 gestellt werden, oder sie kann auf einer Anzeigeeinrichtung 306 angezeigt werden. Dieser Prozess des Stellens einer Frage zum Einengen der Suche wird wiederholt, bis die Dienstleistungs-Anforderungsvorrichtung eine weitere Eingabe oder Anfrage nicht verarbeiten (erkennen) kann. Dann verbindet die Dienstleistungs-Anforderungsvorrichtung mit der Dienstleistungs-Vermittlungsvorrichtung, damit diese folgende Eingaben oder Anfragen (durch weiteres Stellen von Fragen) verarbeiten kann. Diese Verbindung mit der Dienstleistungs-Vermittlungsvorrichtung kann dadurch realisiert werden, dass der in der Dienstleistungs-Anforderungsvorrichtung abgespeicherte Eintrag "Verknüpfungszielvorrichtung für die weitere Anfragenverarbeitung" eingestellt wird und verwendet wird, wenn die Dienstleistungs-Anforderungsvorrichtung eine Eingabe oder Anfrage nicht verarbeiten (erkennen) kann, damit der Eintrag "Verknüpfungszielvorrichtung für die weitere Anfragenverarbeitung" die Dienstleistungs-Vermittlungsvorrichtung angibt.
Ferner kann der Erkennungsprozess für die Eingaben durch die Dienstleistungs-Anforderungsvorrichtung und entweder die Dienstleistungs-Vermittlungsvorrichtung oder die Dienstleistungs-Bereitstellvorrichtung ausgeführt werden. Wenn in diesem Fall die Dienstleistungs-Anforderungsvorrichtung eine Eingabe nicht erkennen kann, wird sie an ihrer Stelle von der Dienstleistungs-Vermittlungsvorrichtung oder der Dienstleistungs-Bereitstellvorrichtung erkannt, um den Erkennungsprozess für die Eingaben (Reaktion auf die Eingaben) fortzusetzen.
Es sei darauf hingewiesen, dass der obige Zustand, gemäß dem es nicht möglich ist, eine Eingabe zu verarbeiten (auf sie zu reagieren), auch dann auftritt, wenn die Dienstleistungs-Anforderungsvorrichtung eine Anfrage empfangen hat, die Daten anfordert, über die sie nicht verfügt (beispielsweise dann, wenn die Dienstleistungs-Anforderungsvorrichtung eine Frage wie "Welche Website ist diese Woche die beliebteste?" empfangen hat). Der obige Zustand tritt auch dann auf, wenn die Dienstleistungs-Anforderungsvorrichtung eine Anfrage empfangen hat, die sie nicht erkennen kann, da sie nicht über die erforderlichen Daten (wie Wörter und Grammatik) zum Erkennen derselben verfügt.
Zu den Anfragetypen, die die Dienstleistungs-Anforderungsvorrichtung selbst verarbeiten kann, gehören Befehlsausführungsanfragen zum Bedienen der Dienstleistungs-Anforderungsvorrichtung selbst und der Einrichtungen um sie herum. Bei einer Dienstleistungs-Anforderungsvorrichtung in einem Fahrzeug gehören zu Einrichtungen um sie herum solche, die am Fahrzeug angebracht sind, wie eine Klimaanlage, ein Scheibenwischer und ein Radio.
Die Dienstleistungs-Anforderungsvorrichtungen 308A bis 300E können von Typen sein, die nicht an einem Fahrzeug anbringbar sind. Wenn die Dienstleistungs-Anforderungsvorrichtungen 300A bis 300E an Fahrzeugen angebracht sind, sind sie vorzugsweise über Funkübertragungsstrecken mit dem Netzwerk 1 verbunden.
In einem Schritt 503 empfängt die Dienstleistungs-Vermittlungsvorrichtung 100, unter Verwendung einer Schnittstelle 103, über das Netzwerk übertragene Stimmdaten "Bitte Restaurant in der Nähe mitteilen".
Die Dienstleistungs-Vermittlungsvorrichtung 300 erkennt die empfangenen Stimmdaten unter Verwendung einer Verarbeitungsvorrichtung 102 und eines Spracherkennungsprogramms oder eines anderen Typs von Erkennungsprogramm in einem Schritt 504. Da die Meldung (Stimmdaten) das Wort "Nähe" enthält, führt die Dienstleistungs-Vermittlungsvorrichtung 100 einen Prozess zum Erhalten der Position des fahrenden Fahrzeugs 310 aus. Genauer gesagt, führt die Dienstleistungs-Vermittlungsvorrichtung 100 beispielsweise Folgendes aus. (1) Wenn die Dienstleistungs-Anforderungsvorrichtung 300C ein Autonavigationssystem ist, erhält die Dienstleistungs-Vermittlungsvorrichtung 100 Information zur Position des fahrenden Fahrzeugs, wie sie im Autonavigationssystem gespeichert ist. Oder alternativ, (2), fordert die Dienstleistungs-Vermittlungsvorrichtung 100 den Benutzer dazu auf, die aktuelle Position unter Verwendung eines Dialogorganisationsprogramms in die Dienstleistungs-Anforderungsvorrichtung 300C einzugeben. Genauer gesagt, gibt im Fall (2) die Dienstleistungs-Vermittlungsvorrichtung 100 die Meldung "Bitte aktuelle Position eingeben" durch Sprache aus einem Lautsprecher 305 oder durch Anzeige auf einer Anzeigeeinrichtung 306 aus. Ob sich ein Restaurant "in der Nähe" des Fahrzeugs 3000 befindet, kann dadurch bestimmt werden, dass geprüft wird, ob es sich innerhalb einer vorbestimmten Entfernung vom Fahrzeug 30C befindet. Dabei wird in einer Tabelle abgespeicherte Ortsinformation zu Restaurants verwendet.
Andererseits wird eine in einer Speichervorrichtung 104 gespeicherte Tabelle dazu verwendet, nach einem Restaurant eines gewünschten Typs zu suchen. Wenn die Kategorie "Restaurant" mehrere Unterkategorien enthält, wird das Dialogorganisationsprogramm so eingestellt, dass es dem Benutzer eine Frage wie "Welcher Restauranttyp: japanisch, chinesisch, französisch oder italienisch?" stellt, um den Benutzer zu einer weiteren Dateneingabe anzuregen. Wenn ferner mehrere Restaurants in einer Unterkategorie gespeichert sind, können die Namen aller Restaurants nacheinander an die Dienstleistungs-Anforderungsvorrichtung 3000 ausgegeben werden. Alternativ kann der Benutzer dazu aufgefordert werden, mindestens eine Bedingung zum Spezifizieren eines Restaurants des gewünschten Typs einzugeben. Beispielsweise speichert die Dienstleistungs-Vermittlungsvorrichtung 100 vorab Bedingungen jedes Restaurants (Preis, Arbeitsstunden, Geschmacksrichtung, Parkmöglichkeiten und Fassungsvermögen usw.) ab und sie fordert den Benutzer dazu auf, mindestens eine Bedingung einzugeben, die mit diesen abgespeicherten Bedingungen zu vergleichen ist.
In einem Schritt 505 bestimmt die Dienstleistungs-Vermittlungsvorrichtung 100, auf Grundlage der Erkennungsergebnisse aus den obigen eingegebenen Daten, eine Spracherkennungsmaschine zur Erkennung von von der Dienstleistungs-Anforderungsvorrichtung 3000 gelieferten Stimmdaten.
Ein spezielles Beispiel des Schritts 505 wird unter Bezugnahme auf die 6 beschrieben. Schritte 5051 und 5052 in der 6 entsprechen dem Schritt 505.
Im Schritt 5051 sucht die Verarbeitungsvorrichtung 102 in der Dienstleistungs-Vermittlungsvorrichtung 100 nach einer das Verknüpfungsziel bildenden Dienstleistungs-Bereitstellvorrichtung, die die durch die Stimmdaten angefragte Dienstleistung liefern soll. Diese Suche wird unter Verwendung einer in der 10 dargestellten Tabelle 105 ausgeführt. Die Verarbeitungsvorrichtung 102 nimmt nämlich auf jeden Sucheinzelpunkt in der Tabelle Bezug, wenn sie nach einem passenden Restaurant sucht. Wenn bei der obigen Abfrage zu einem gewünschten Restauranttyp die Kategorie "italienisch" ausgewählt wird, werden als Ergebnis der Suche Restaurants A bis D erhalten. Die Verarbeitungsvorrichtung 102 in der Dienstleistungs-Vermittlungsvorrichtung 100 stellt dann Fragen zur bevorzugten Geschmacksrichtung des Benutzers, zum Preisbereich, zum gewünschten Ort des Restaurants usw., um ein Restaurant, das der Anfrage durch den Benutzer genügt, und eine entsprechende Dienstleistungs-Bereitstellvorrichtung zu spezifizieren. Bei diesem Beispiel wird angenommen, dass das Restaurant A ausgewählt wurde. Dann spezifiziert unter Verwendung der Tabelle die Dienstleistungs-Vermittlungsvorrichtung 100 eine das Verknüpfungsziel bildende Vorrichtung (beispielsweise einen Dienstleistungs-Bereitstellvorrichtung), die dem Restaurant A entspricht. Es sei darauf hingewiesen, dass mehrere Restaurants und mehrere ein Verknüpfungsziel bildende Vorrichtungen ausgewählt werden können.
Unter Verwendung der Tabelle wird im Schritt 5052 eine Spracherkennungsmaschine spezifiziert, die der spezifizierten, das Verknüpfungsziel bildenden Vorrichtung entspricht. Es ist auch möglich, die Spracherkennungsmaschine unter Verwendung ihrer Adresse, die zur Verbindungsherstellung mit ihr verwendet wird, zu spezifizieren. In der Tabelle können mehrere Spracherkennungsmaschinen, statt einer, einer das Verknüpfungsziel bildenden Vorrichtung als Kandidaten für eine Ziel-Spracherkennungsmaschine zugeordnet sein. Bei dieser Anordnung können die Spracherkennungsmaschine-Kandidaten dadurch auf einen einzelnen eingeengt werden, dass die Anfragen des Benutzers berücksichtigt werden, wie Punkte wie die Gebühren zum Verwenden einer Spracherkennungsmaschine und deren Übersetzungsgenauigkeit. Die obige Tabelle kann in einer anderen Informationsverarbeitungsvorrichtung im Netzwerk enthalten sein. Die Spracherkennungsmaschine kann auch unter Verwendung einer in der VXML-Beschreibungssprache geschriebenen Liste, wie in der 7 dargestellt, anstatt durch eine allgemeine Tabelle spezifiziert werden.
Ferner kann eine in einem speziellen Format geschriebene Liste, wie in der 11 dargestellt, anstelle der in der VXML-Beschreibungssprache geschriebenen Liste in der 7 verwendet werden. dieses Format spezifiziert jede Ziel-Spracherkennungsmaschine unter Verwendung von Parametern wie "ngram", "bergein", "nbest" und "Vertrauenswürdigkeit", die jeweils eine spezielle Bedingung angeben. Der Parameter "ngram" zeigt an, dass eine Reihe von Wörtern erkannt werden sollte; "bergein" zeigt an, dass der Benutzer einen Text-in-Sprache-Prozess unterbrechen kann; "nbest" weist an, dass mehrere Kandidaten des Spracherkennungsergebnisses ausgegeben werden; und "Vertrauenswürdigkeit" zeigt an, dass der Zuverlässigkeitsgrad der Spracherkennungsergebnisse ausgegeben werden sollte. D.h., dass die 11 Bedingungen angibt, die zum Kennzeichnen einer Spracherkennungsmaschine dienen, die eine Reihe von Wörtern erkennen kann, während ihres Sprachsyntheseprozesses eine Unterbrechung annehmen kann, mehrere Kandidaten des Spracherkennungsergebnisses ausgeben kann und den Zuverlässigkeitsgrad ihrer Spracherkennungsergebnisse ausgeben kann.
Wenn eine Ziel-Spracherkennungsmaschine unter Verwendung des in der 11 dargestellten Formats spezifiziert wird, ist es möglich, eine solche entweder aus einer Liste von Spracherkennungsmaschinen, die zur das Verknüpfungsziel bildenden Dienstleistungs-Bereitstellvorrichtung gehören, oder einer Liste von Spracherkennungsmaschinen, die zu einer aktuelle vom System verwendeten Dienstleistungs-Bereitstellvorrichtung gehören, auszuwählen.
Andererseits können mehrere Spracherkennungsmaschinen ausgewählt werden, anstatt dass eine einzelne spezifiziert wird, um dieselbe Stimme unter Verwendung jeder der ausgewählten mehreren Spracherkennungsmaschinen zu erkennen. In diesem Fall ist es möglich, das am schnellsten erhaltene Erkennungsergebnis zu verwenden (d.h., dasjenige, das von der Spracherkennungsmaschine mit der Eigenschaft der schnellsten Reaktion erhalten wird), um die Reaktionsgeschwindigkeit zu erhöhen, oder alternativ ist es möglich, unter mehreren erhaltenen Erkennungsergebnissen das genaueste auszuwählen, um die Erkennungsgenauigkeit zu erhöhen.
Bei diesem Beispiel werden die Dienstleistungs-Bereitstellvorrichtung 200A und eine zu ihr gehörende Spracherkennungsmaschine ausgewählt.
Nach dem Spezifizieren einer das Verknüpfungsziel bildenden Vorrichtung und einer Spracherkennungsmaschine steuert die Dienstleistungs-Vermittlungsvorrichtung 100 das System in solcher Weise, dass die spezifizierte, das Verknüpfungsziel bildende Vorrichtung sowie die Spracherkennungsmaschine einen vorbestimmten Prozess ausführen können, was in einem Schritt 506 erfolgt.
Unter Bezugnahme auf die 6 wird ein spezielles Beispiel des Schritts 506 beschrieben. Die Schritte 5061 und 5062 in der 6 entsprechen dem Schritt 506.
In einem Schritt 5061 wird die Vorrichtung, mit der eine Verbindung besteht, gewechselt (oder es wird eine Übertragungsstrecke aufgebaut). Beispielsweise erstellt die Dienstleistungs-Vermittlungsvorrichtung 100 eine Verbindung zwischen der Dienstleistungs-Anforderungsvorrichtung 3000 und der das Verknüpfungsziel bildenden Dienstleistungs-Bereitstellvorrichtung A, so dass diese Stimmdaten von einem Benutzer empfangen kann.
Im Schritt 5062 wird das System so gesteuert, dass die im Schritt 5052 spezifizierte Spracherkennungsmaschine Stimmdaten erkennen kann. Dabei wird das System so eingestellt, dass die Stimmdaten von der Dienstleistungs-Anforderungsvorrichtung 300C an die Spracherkennungsmaschine übertragen werden, die zur Dienstleistungs-Bereitstellvorrichtung 200A gehört.
Es sei darauf hingewiesen, dass eine zu verwendende Spracherkennungsmaschine nicht notwendigerweise eine solche ist, die zu einer Dienstleistungs-Bereitstellvorrichtung, die eine angefragte Dienstleistung liefert, gehört. Beispielsweise kann die Dienstleistungs-Bereitstellvorrichtung 200D einen Spracherkennungsdienst bereitstellen, und daher kann sie als Spracherkennungsmaschine für eine andere Dienstleistungs-Bereitstellvorrichtung verwendet werden. Ferner kann eine speziell zur Spracherkennung vorhandene Dienstleistungs-Bereitstellvorrichtung auch dazu verwendet werden, die Stimmdaten zu erkennen. Eine zum Spezifizieren einer Ziel-Spracherkennungsmaschine verwendete Tabelle muss nicht notwendigerweise eine Spracherkennungsmaschine für jede Dienstleistungs-Bereitstellvorrichtung spezifizieren. Beispielweise können mehrere Spracherkennungsmaschinen und deren Prioritäten in der Tabelle registriert sein. Wenn dann eine spezifizierte Dienstleistungs-Bereitstellvorrichtung über eine Spracherkennungsmaschine verfügt, wird diese verwendet. Andernfalls wird im Netzwerk unter Verwendung der Tabelle nach einer Spracherkennungsmaschine auf einem Gebiet gesucht, das zur Dienstleistung gehört, die durch die spezifizierte Dienstleistungs-Bereitstellvorrichtung zu erbringen ist. Wenn bei der Suche keine geeignete Spracherkennungsmaschine gefunden wird, kann der Aufbau dergestalt sein, dass die zur Dienstleistungs-Vermittlungsvorrichtung 100 gehörende Spracherkennungsmaschine verwendet wird.
In einem Schritt 507 erkennt die zur Dienstleistungs-Bereitstellvorrichtung 200A gehörende Spracherkennungsmaschine eine Anfrage (Stimmdaten) von der Dienstleistungs-Anforderungsvorrichtung 3000. In einem Schritt 508 führt die Dienstleistungs-Bereitstellvorrichtung 200A eine Informationsverarbeitung auf Grundlage der Erkennungsergebnisse der Stimmdaten aus, um eine durch den Benutzer angefragte Dienstleistung zu liefern. Wenn beispielsweise der Benutzer die Anfragemeldung "Ich würde gerne ein Menü ansehen" eingegeben hat, gibt die Dienstleistungs-Bereitstellvorrichtung 200A in der Vorrichtung gespeicherte Menüdaten über das Netzwerk 1 auf Grundlage der Erkennungsergebnisse durch die Spracherkennungsmaschine im Schritt 508 an die Dienstleistungs- Anforderungsvorrichtung 3000 aus. Dann gibt die Dienstleistungs-Anforderungsvorrichtung 300C das Menü auf dem Schirm der Anzeigeeinrichtung 304C aus und/oder sie liest das Menü durch den Lautsprecher 306C vor.
Zum Erkennen von Stimmdaten kann, wie oben beschrieben, eine Spracherkennungsmaschine verwendet werden, die zu einer Vorrichtung gehört, die nicht die spezifizierte Dienstleistungs-Bereitstellvorrichtung ist. Es sei darauf hingewiesen, dass der Empfang einer Dienstleistung und von Information im Schritt 509 durch die Dienstleistungs-Vermittlungsvorrichtung 100 ausgeführt werden kann.
Die 8 zeigt ein Beispiel von Kommunikationsprotokollen, wie sie zwischen den Vorrichtungen gemäß der vorliegenden Ausführungsform verwendet werden. Die 9 zeigt eine Konfiguration eines Systems unter Verwendung der Kommunikationsprotokolle in der 8. Es sei darauf hingewiesen, dass Datenformate, wie sie zwischen Kommunikationsvorrichtungen verwendet werden, abhängig von jeder Kommunikationsvorrichtung differieren können. Genauer gesagt, kann ein Datenformat verwendet werden, das der Funktion jeder Übertragungszielvorrichtung genügt. Beispielsweise kann die Dienstleistungs-Anforderungsvorrichtung 300A ein Textformat verwenden, während die Dienstleistungs-Anforderungsvorrichtung 300E Stimmdaten selbst verwenden kann.
Die Dienstleistungs-Anforderungsvorrichtung der vorliegenden Ausführungsform verfügt nur über ein Text-in-Sprache-Programm sowie eine Spracherkennungsmaschine. Jedoch können entweder ein Dialogorganisationsprogramm oder ein Sprachbrowser zur Dienstleistungs-Anforderungsvorrichtung hinzugefügt werden, um einen Dialog mit dem Benutzer abzuarbeiten. Andererseits kann die Dienstleistungs-Anforderungsvorrichtung nur über Sprach-Eingabe/Ausgabe-Funktion verfügen und kein Programm zum Verarbeiten von Dialogen enthalten. Zur Dienstleistungs-Anforderungsvorrichtung kann ein Sprachanalyseprogramm hinzugefügt werden, um Sprache zu analysieren.
Ferner kann aus der Konfiguration der Dienstleistungs-Bereitstellvorrichtung 200A das Information/Dienstleistungen bereitstellende Programm, das Dialogorganisationsprogramm oder der Sprachbrowser weggelassen werden. Beispielsweise kann mindestens eine dieser Einrichtungen aus den Dienstleistungs-Anforderungsvorrichtungen 200C und 200D weggelassen werden, die einen Spracherkennungsdienst bereitstellen. Ferner benötigen einige Dienstleistungs- Bereitstellvorrichtungen keinerlei Spracherkennungsmaschine. Beispielsweise muss in der Dienstleistungs-Bereitstellvorrichtung 200B, die Restaurantinformation liefert, keine Spracherkennungsmaschine enthalten sein. In diesem Fall sucht die Dienstleistungs-Bereitstellvorrichtung 200B unter Verwendung von Sprachdaten, die mit einer durch die Dienstleistungs-Vermittlungsvorrichtung 100 spezifizierten Spracherkennungsmaschine erkannt wurden, nach Restaurantinformation, und sie liefert als Ergebnis der Suche erhaltene Information.
Die Dienstleistungs-Anforderungsvorrichtungen 300A bis 3000 können Wörterbücher über das Netzwerk 1 an entfernten Stellen nutzen, um Sprache zu erkennen. In einem solche Fall kann die Nutzungshäufigkeit jedes Wörterbuchs abgespeichert werden, damit Wörterbücher, deren Benutzung häufiger als eine vorbestimmte Anzahl ist, heruntergeladen oder in den Cache geladen werden können.
Die Erfindung kann so konfiguriert sein, dass dann, wenn eine Spracherkennungsoperation fehlschlägt, das System automatisch auf einen menschlichen Bediener zum Erkennen der Sprache umschaltet. In der 1 kann beispielsweise die Dienstleistungs-Bereitstellvorrichtung 200A über einen menschlichen Bediener verfügen, und wenn es ihrer Spracherkennungsmaschine nicht gelingt, Sprache zu erkennen, schaltet sie automatisch auf den Bediener um, um auf die Sprache zu reagieren.
Die 12 ist ein Flussdiagramm, das den Prozess des Umschaltens auf einen Bediener, wenn eine Spracherkennungsoperation fehlschlägt, zeigt. In einem Schritt 1207 beginnt die Dienstleistungs-Bereitstellvorrichtung 200A damit, eine Anfrage zu erkennen. Wenn es der Dienstleistungs-Bereitstellvorrichtung 200A nicht gelingt, die Anfrage zu erkennen (Verzweigung N im Schritt 1208), verbindet sie die Dienstleistungs-Anforderungsvorrichtung 300C mit dem Bediener, damit dieser in einem Schritt 1209 über einen Dialog zwischen dem Benutzer und ihm eine Eingabe vom Benutzer abfragen kann. Nach dem Erkennen der Anfrage führt die Dienstleistungs-Bereitstellvorrichtung 200A in einem Schritt 1210 eine Verarbeitung aus, wie sie zum Bereitstellen einer Dienstleistung erforderlich ist, und sie liefert die angeforderte Dienstleistung/Information in einem Schritt 1211 an die Dienstleistungs-Rnforderungsvorrichtung 300C.
Sprache, die einer Spracherkennung unterliegt, kann immer für eine vorbestimmte Zeitperiode aufgezeichnet werden, und wenn eine Spracherkennungsoperation fehlschlägt, können die aufgezeichneten Stimmdaten und die bis dahin erhaltenen Spracherkennungsergebnisse an den Bediener geliefert werden. Durch diese Anordnung kann sich der Bediener die vorigen Dialoge anhören und auf die Spracherkennungsergebnisse Bezug zu nehmen, um schnell zu verstehen, was angefragt oder gesprochen wurde, ohne dass er die tatsächliche Unterhaltung zwischen dem Benutzer und der Dienstleistungs-Bereitstellvorrichtung dauernd anhören müsste, was es ermöglicht, gleichmäßig auf den Bediener zum Reagieren auf Eingaben umzuschalten.
Es sei darauf hingewiesen, dass zwar bei der obigen Beschreibung der vorliegenden Ausführungsform angenommen ist, dass der Bediener in der Dienstleistungs-Bereitstellvorrichtung vorhanden ist, jedoch kann es statt dessen die Dienstleistungs-Vermittlungsvorrichtung sein kann, die statt dessen über den Bediener verfügt.
Wie oben beschrieben, beinhaltet die Bereitstellung verschiedener Dienstleistungen zusätzlich zu einem Restaurantsuchdienst, der Eingabe verschiedener Typen von Eingabedaten sowie verschiedene Systeme, in denen Vorrichtungen gemäß der Erfindung installiert sind. Beispielsweise beinhaltet die Erfindung Bild, Text usw. als Eingabedaten zusätzlich zu Sprache. Auch beinhaltet die Erfindung als Systeme Computer in Haushalten, mobile Computer sowie tragbare Telefone, zusätzlich zu Fahrzeugen, an denen eine erfindungsgemäße Vorrichtung angebracht ist.
Zur Erfindung gehören verschiedene Modi der Dienstleistungs-Bereitstellvorrichtung, zusätzlich zur Dienstleistungs-Bereitstellvorrichtung 200A und jede Dienstleistungs-Bereitstellvorrichtung führt eine Verarbeitung entsprechend ihrer Funktion aus. Beispielsweise führt eine Dienstleistungs-Bereitstellvorrichtung ohne Spracherkennungsmaschine eine Informationsverarbeitung zum Bereitstellen einer Dienstleistung unter Verwendung von Erkennungsergebnissen aus, die durch eine Spracherkennungsmaschine einer anderen Vorrichtung geliefert werden. In ähnlicher Weise beinhaltet die Erfindung auch verschiedene Modi der Dienstleistungs-Anforderungsvorrichtung zusätzlich zu dem der Dienstleistungs-Anforderungsvorrichtung 300C und jede Dienstleistungs-Anforderungsvorrichtung führt eine Verarbeitung entsprechend ihrer Funktion aus. Beispielsweise führt die Dienstleistungs-Anforderungsvorrichtung 300A eine Spracherkennung und eine Verarbeitung eines Dialogs mit dem Benutzer innerhalb ihres Funktionsvermögens aus.
Die Erfindung ermöglicht es, eine Dienstleistungsanfrage in einem Netzwerk schnell und genau zu erkennen. Demgemäß ist es möglich, auf effiziente Weise eine angeforderte Dienstleistung bereitzustellen.

Claims

Dienstleistungs-Bereitstellsystem mit Dienstleistungs-Bereitstellvorrichtungen (200A, 200B, 2000, 200D) zum Verarbeiten von Informationen für die Bereitstellung einer Dienstleistung, einer Dienstleistungs-Anfordervorrichtung (300A, 300E) zum Verarbeiten von Informationen für die Anforderung der Dienstleistung von den Dienstleistungs-Bereitstellvorrichtungen und einer mit den Dienstleistungs-Bereitstellvorrichtungen und der Dienstleistungs-Anfordervorrichtung über ein Netzwerk verbundenen Dienstleistungs-Vermittlungsvorrichtung (100), wobei die Dienstleistungs-Anfordervorrichtung (300A) zur Aufnahme einer Stimmeingabe ausgelegt ist, die eine Instruktion bezüglich einer von einem Benutzer der Dienstleistungs-Anfordereinrichtung angeforderten Dienstleistung angibt, wobei die Dienstleistungs-Vermittlungsvorrichtung (100) so ausgelegt ist, daß sie eine Dienstleistungs-Bereitstellvorrichtung (200A) spezifiziert, die einen der Instruktion entsprechenden Prozeß ausführen soll, wobei die Dienstleistungs-Vermitlungsvorrichtung (100) so ausgelegt ist, daß sie aufgrund der spezifizierten Dienstleistungs-Bereitstellvorrichtung eine Informationsverarbeitungsvorrichtung (202A, 302A) spezifiziert, die eine Stimmeingabe durch den Benutzer erkennen soll, und wobei die spezifizierte Dienstleistungs-Bereitstellvorrichtung (200A) so ausgelegt ist, daß sie Informationen verarbeitet, um aufgrund einer von der spezifizierten Informationsverarbeitungsvorrichtung durchgeführten Spracherkennung eine Dienstleistung bereitstellt.
System nach Anspruch 1, wobei die Dienstleistungs-Vermittlungsvorrichtung so ausgelegt ist, daß sie die Informationsverarbeitungsvorrichtung aufgrund einer Information spezifiziert, die eine entsprechende Beziehung zwischen der spezifizierten Dienstleistungs-Bereitstellvorrichtung und der Informationsverarbeitungsvorrichtung, die die Stimme erkennen soll, angibt.
System nach Anspruch 2, wobei die Dienstleistung-Vermittlungsvorrichtung ein Speichergerät aufweist, das Informationen speichert, die die entsprechende Beziehung zwischen der spezifizierten Dienstleistungs-Bereitstellvorrichtung und der Informationsverarbeitungsvorrichtung, die die Stimme erkennen soll, angibt.
System nach Anspruch 1, wobei die Informationsverarbeitungsvorrichtung, die die Stimme erkennen soll, an das Netzwerk angeschlossen ist.
System nach Anspruch 1, wobei die Dienstleistungs-Anfordervorrichtung eine in einem sich bewegenden Fahrzeug benutzbare Informationsverarbeitungsvorrichtung ist.
Dienstleistungs-Vermittlungsvorrichtung (100), die über ein Netzwerk mit Dienstleistungs-Bereitstellvorrichtungen (200A, 200B) zum Verarbeiten von Informationen für die Bereitstellung einer Dienstleistung sowie mit einer Dienstleistungs-Anfordervorrichtung (300A) zum Verarbeiten von Informationen für die Anforderung der Dienstleistung von den Dienstleistungs-Bereitstellvorrichtungen verbunden ist und aufweist: eine Einrichtung zum Empfang einer Stimmeingabe über das Netzwerk, wobei die Stimmeingabe eine Instruktion bezüglich einer von dem Benutzer der Dienstleistungs-Anfordervorrichtung angeforderten Dienstleistung angibt und durch die Dienstleistungs-Anfordervorrichtung (300A) empfangen worden ist, eine Einrichtung zum Spezifizieren einer Dienstleistungs-Bereitstellvorrichtung (200A), die einen der Instruktion entsprechenden Prozeß ausführen soll, und eine Einrichtung, die aufgrund der spezifizierten Dienstleistungs-Bereitstellvorrichtung (200A) eine Informationsverarbeitungsvorrichtung (202A) spezifiziert, die eine Stimmeingabe von dem Benutzer erkennen soll, und es dadurch gestattet, daß die spezifizierte Dienstleistungs-Bereitstellvorrichtung (200A) Informationen verarbeitet, um aufgrund einer von der spezifizierten Informationsverarbeitungsvorrichtung durchgeführten Spracherkennung eine Dienstleistung bereitzustellen.
Vorrichtung nach Anspruch 6, wobei die Einrichtung zum Spezifizieren einer Informationsverarbeitungsvorrichtung diese aufgrund von Informationen spezifiziert, die eine entsprechende Beziehung zwischen der spezifizierten Dienstleistung-Bereitstellvorrichtung und der Informationsverarbeitungsvorrichtung, die die Stimme erkennen soll, angeben.
Vorrichtung nach Anspruch 7 mit ferner einem Speichergerät zum Speichern der Informationen, die die entsprechende Beziehung zwischen der spezifizierten Dienstleistungs-Bereitstellvorrichtung und der Informationsverarbeitungsvorrichtung, die die Stimme erkennen soll, angeben.
Vorrichtung nach Anspruch 8 mit ferner einer Einrichtung zum Verbinden mit der Informationsverarbeitungsvorrichtung, die die Stimme erkennen soll, über das Netzwerk.
Dienstleistungs-Vermittlungsvorrichtung (100) zur Verarbeitung von Informationen für die Vermittlung einer Dienstleistung, wobei die Dienstleistungs-Vermittlungsvorrichtung aufweist: ein Empfangsgerät zum Empfangen von Benutzer-Stimminformationen, die eine Instruktion bezüglich einer von einem Benutzer einer Dienstleistungs-Anfordervorrichtung (300A) angeforderten Dienstleistung angeben, ein Speichergerät (101) zum Speichern eines Programms zum Spezifizieren einer Dienstleistung entsprechend einer von den Stimminformationen angegebenen Instruktion sowie zum Spezifizieren eines Spracherkennungsprogramms für die Erkennung der Stimminformation aufgrund der spezifizierten Dienstleistung, ein Verarbeitungsgerät (102) zum Spezifizieren der Dienstleistung entsprechend dem Programm, wobei die Dienstleistung der von den Benutzer-Stimminformationen angegebenen Instruktion entspricht, sowie zum Spezifizieren eines Spracherkennungsprogramms, das die Benutzer-Stimminformationen erkennen soll, aufgrund der spezifizierten Dienstleistung, und wobei das Verarbeitungsgerät (102) mit dem Empfangsgerät und dem Speichergerät (101) verbunden ist, und ein Ausgabegerät zur Ausgabe von Informationen für die Erkennung der Sprachinformationen an eine Informationsverarbeitungsvorrichtung (202A), die entsprechend dem spezifizierten Spracherkennungsprogramm eine Stimme erkennen soll.
Vorrichtung nach Anspruch 10 mit ferner einem zweiten Speichergerät zur Angabe einer entsprechenden Beziehung zwischen der Dienstleistung und dem Spracherkennungsprogramm, wobei das Verarbeitungsgerät das Spracherkennungsprogramm unter Verwendung des zweiten Speichergeräts spezifiziert.
Vorrichtung nach Anspruch 10, wobei die Dienstleistungs-Vermittlungsvorrichtung so ausgelegt ist, dass sie die eine Spracherkennungsmaschine aufweisende Informationsverarbeitungsvorrichtung über ein Netzwerk verbindet.
Vorrichtung nach Anspruch 10, wobei das Speichergerät ein Spracherkennungsprogramm speichert und das Verarbeitungsgerät so ausgelegt ist, dass es die Benutzer-Stimminformationen unter Verwendung des in dem Speichergerät gespeicherten Spracherkennungsprogramms erkennt.
Vorrichtung nach Anspruch 10, wobei das Empfangsgerät zur Verbindung mit einer Dienstleistungs-Anfordetvorrichtung über ein Netzwerk ausgelegt ist, um die Benutzer-Stimminformationen von der Dienstleistungs-Anfordervorrichtung über das Netzwerk zu empfangen.
System nach Anspruch 3 bzw. Vorrichtung nach Anspruch 6 oder 9, wobei die entsprechende Beziehung in einer VXML-Sprache, d.h. einer erweiterbaren Mark-up-Sprache, beschrieben ist.
System nach Anspruch 15, wobei die in der VXML-Sprache beschriebenen Informationen Informationen enthalten, die eine Ausführbedingung zum Erkennen von Stimme spezifizieren.