DE60126462T2

DE60126462T2 - Client/Server basiertes Spracherkennungssystem

Info

Publication number: DE60126462T2
Application number: DE60126462T
Authority: DE
Inventors: Akihiro Ohta Kushida; Tetsuo Ohta Kosaka
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-11-27
Filing date: 2001-11-27
Publication date: 2007-11-15
Anticipated expiration: 2021-11-28
Also published as: JP3581648B2; US20020065652A1; ATE353463T1; KR100679113B1; CN1356688A; US7099824B2; EP1209662B1; DE60126462D1; KR20020041296A; JP2002162988A; EP1209662A3; EP1209662A2; CN1187733C

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf ein Client-Server-Spracherkennungssystem zum Erkennen einer Spracheingabe bei einem Client durch einen Server, einen Spracherkennungs-Server, einen Spracherkennungs-Client, deren Steuerverfahren und einen computerlesbaren Speicher.
HINTERGRUND DER ERFINDUNG
In den vergangenen Jahren wurde Sprache als eine Eingabeschnittstelle zusätzlich zu einer Tastatur, Maus und dergleichen verwendet.
Die Erkennungsrate der eine Eingabesprache erkennenden Spracherkennung verringert sich jedoch und erfordert eine längere Verarbeitungszeit, wenn sich die Anzahl von einer Spracherkennung zu unterziehenden Erkennungswörtern größer wird. Aus diesem Grund wird bei einem gegenwärtigen Verfahren eine Vielzahl von Erkennungswörterbüchern oder -lexika ausgebildet, die eine Spracherkennung zu durchlaufende Erkennungswörter (z.B. Aussprachen und Schreibweisen) registrieren und selektiv verwendet werden (eine Vielzahl von Erkennungswörterbüchern kann zum gleichen Zeitpunkt verwendet werden).
Ebenso können nicht registrierte Worte nicht erkannt werden. Als ein Verfahren zum Lösen dieses Problems kann ein Benutzerwörterbuch oder -lexikon (das durch den Benutzer ausgebildet ist, um eine Spracherkennung zu durchlaufende Erkennungswörter zu registrieren) verwendet werden.
Demgegenüber wurde ein Client-Server-Spracherkennungssystem studiert, um eine Spracherkennung auf einem Endgerät mit unzureichenden Ressourcen zu implementieren.
Diese drei Techniken sind dem Fachmann bekannt, aber ein System, das diese drei Techniken kombiniert, wurde noch nicht realisiert.
Die WO-A-99/26233 offenbart ein Client-Server-Spracherkennungssystem, in welchem durch einen Client erzeugte Sprachdaten zu einem Spracherkennungsserver übertragen werden, in welchem die Sprache erkannt und die erkannte Sprache zu dem Client zurück gegeben wird.
KURZFASSUNG DER ERFINDUNG
Gemäß einer Ausgestaltung stellt die Erfindung ein Client-/Server-Spracherkennungssystem zum Erkennen einer Spracheingabe bei einem Client durch einen Server bereit,
wobei der Client umfasst:
eine Spracheingabeeinrichtung zum Eingeben von Sprache,
eine Benutzerwörterbuchhalteeinrichtung zum Halten eines Benutzerwörterbuchs, das durch Registrieren von durch den Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, und
eine Übertragungseinrichtung zum Übertragen von durch die Spracheingabeeinrichtung eingegebenen Sprachda ten, von Wörterbuchverwaltungsinformationen, die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und des Benutzerwörterbuchs zu dem Server, und
wobei der Server umfasst:
eine Erkennungswörterbuchhalteeinrichtung zum Halten einer Vielzahl von Arten von Erkennungswörterbüchern, die für jeweilige Erkennungsfelder ausgebildet sind,
eine Bestimmungseinrichtung zum Bestimmen von einem oder mehreren Erkennungswörterbüchern, die den von dem Client empfangenen Wörterbuchverwaltungsinformationen entsprechen, aus der Vielzahl von Arten von Erkennungswörterbüchern und dem von dem Client empfangenen Benutzerwörterbuch, und
eine Erkennungseinrichtung zum Erkennen der Sprachdaten unter Verwendung zumindest des durch die Bestimmungseinrichtung bestimmten Erkennungswörterbuchs.
Weitere Merkmale und Vorteile der Erfindung werden aus der nachstehenden Beschreibung in Verbindung mit den beiliegenden Zeichnungen offensichtlich, in welchen gleiche Bezugszeichen die gleichen oder ähnliche Abschnitte durch die Figuren hindurch bezeichnen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Es zeigen:
1 eine Blockdarstellung der Hardware-Anordnung eines Spracherkennungssystems des ersten Ausführungsbeispiels,
2 eine Blockdarstellung der Funktionsanordnung des Spracherkennungssystems des ersten Ausführungsbeispiels,
3 den Aufbau eines Benutzerwörterbuchs des ersten Ausführungsbeispiels,
4 ein Spracheingabefenster des ersten Ausführungsbeispiels,
5 eine Kennungstabelle des ersten Ausführungsbeispiels,
6 ein Ablaufdiagramm des Prozesses, der durch das Spracherkennungssystem des ersten Ausführungsbeispiels ausgeführt wird,
7 den Aufbau eines Benutzerwörterbuchs, dem Eingabemaskenkennungen angehängt sind, gemäß dem dritten Ausführungsbeispiel, und
8 den Aufbau eines Benutzerwörterbuchs, dem Erkennungswörterbuchkennungen angehängt sind, gemäß dem dritten Ausführungsbeispiel.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung sind nachstehend ausführlich unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben.
[Erstes Ausführungsbeispiel]
1 zeigt die Hardware-Anordnung eines Spracherkennungssystems des ersten Ausführungsbeispiels.
Eine CPU 101 steuert systematisch einen gesamten Client 100. Die CPU 101 lädt in einem ROM 102 gespeicherte Programme in einen RAM 103 und führt verschiedene Prozesse auf der Grundlage der geladenen Programme aus. Der ROM 102 speichert verschiedene Programme von durch die CPU 101 auszuführenden Prozessen. Der RAM 103 stellt einen Speicherbereich bereit, der zum Ausführen von verschiedenen in dem ROM 102 gespeicherten Programmen erforderlich ist.
Eine Sekundärspeichereinrichtung 104 speichert ein BS und verschiedene Programme. Wird der Client 100 nicht unter Verwendung einer Vielzweckvorrichtung implementiert, wie einem Personal-Computer oder dergleichen, sondern einer spezialisierten Vorrichtung, dann kann der ROM 102 das BS und verschiedene Programme speichern. Durch Laden der gespeicherten Programme in den RAM 103 kann die CPU 101 Prozesse ausführen. Es kann als die Sekundärspeichereinrichtung 104 ein Festplattengerät, ein Diskettengerät, eine CD-ROM oder dergleichen verwendet werden. Das heißt, Speichermedien sind nicht im Besonderen eingeschränkt.
Eine Netzwerkschnittstelle 105 ist mit einer Netzwerkschnittstelle 205 eines Servers 200 verbunden.
Eine Eingabeeinrichtung 106 umfasst eine Maus, eine Tastatur, ein Mikrofon und dergleichen, um eine Eingabe von verschiedenen Anweisungen an durch die CPU 101 auszuführende Prozesse zu ermöglichen, und kann durch gleichzeitiges Verbinden dieser Vielzahl von Geräten verwendet werden. Eine Ausgabeeinrichtung 107 umfasst eine Anzeige (CRT, LCD oder dergleichen) und zeigt durch die Eingabeeinrichtung 106 eingegebene Informationen und Anzeigefenster an, die durch verschiedene durch die CPU 101 ausgeführte Prozesse gesteuert sind. Ein Bus 108 verbindet verschiedene Aufbaukomponenten des Clients 100 untereinander.
Eine CPU 201 steuert systematisch den gesamten Server 200. Die CPU 201 lädt in einem ROM 202 gespeicherte Programme in einen RAM 203 und führt verschiedene Prozesse auf der Grundlage der geladenen Programme aus. Der ROM 202 speichert verschiedene Programme von durch die CPU 201 auszuführenden Prozessen. Der RAM 203 stellt einen Speicherbereich bereit, der zum Ausführen von verschiedenen in dem ROM 202 gespeicherten Programmen erforderlich ist.
Eine Sekundärspeichereinrichtung 204 speichert ein BS und verschiedene Programme. Ist der Server 200 nicht unter Verwendung einer vielseitigen Vorrichtung implementiert, wie einem Personal-Computer oder dergleichen, sondern einer spezialisierten Vorrichtung, dann kann der ROM 202 das BS und verschiedene Programme speichern. Durch Laden der gespeicherten Programme in den RAM 203 kann die CPU 201 Prozesse ausführen. Als die Sekundärspeichereinrichtung 204 kann ein Festplattengerät, ein Diskettengerät, eine CD-ROM oder dergleichen verwendet werden. Das heißt, Speichermedien sind nicht im Besonderen eingeschränkt.
Die Netzwerkschnittstelle 205 ist mit der Netzwerkschnittstelle 105 des Clients 100 verbunden. Ein Bus 206 hat verschiedene Aufbaukomponenten des Servers 200 untereinander.
Die Funktionsanordnung des Spracherkennungssystems des ersten Ausführungsbeispiels ist nachstehend unter Bezugnahme auf 2 beschrieben.
2 zeigt eine Blockdarstellung der Funktionsanordnung des Spracherkennungssystems des Ausführungsbeispiels.
In dem Client 100 gibt ein Spracheingabemodul 121 Sprache ein, die durch den Benutzer über ein Mikrofon (Eingabeeinrichtung 106) geäußert ist, und führt eine A/D-Umwandlung bei Eingabesprachdaten (Spracherkennungsdaten) durch, die eine Spracherkennung zu durchlaufen haben. Ein Kommunikationsmodul 122 sendet ein Benutzerwörterbuch 124a, Spracherkennungsdaten 124b, Wörterbuchverwaltungsinformationen 124c und dergleichen zu dem Server 200. Ebenso empfängt das Kommunikationsmodul 122 ein Spracherkennungsergebnis der gesendeten Spracherkennungsdaten 124b und dergleichen von dem Server 200.
Ein Anzeigemodul 123 zeigt das von dem Server 200 empfangene Erkennungsergebnis an, während dieses z.B. in einer Eingabemaske gespeichert wird, die auf der Ausgabeeinrichtung 107 durch den Prozess angezeigt ist, der durch das Spracherkennungssystem dieses Ausführungsbeispiels ausgeführt ist.
In dem Server 200 empfängt ein Kommunikationsmodul 221 das Benutzerwörterbuch 124a, Spracherkennungsdaten 124b, Wörterbuchverwaltungsinformationen 124c und dergleichen von dem Client 100. Das Kommunikationsmodul 221 sendet ebenso das Spracherkennungsergebnis der Spracherkennungsdaten 124b und dergleichen zu dem Client 100.
Ein Wörterbuchverwaltungsmodul 223 vermittelt eine Vielzahl von Arten von Erkennungswörterbüchern 225 (Erkennungswörterbuch 1 bis Erkennungswörterbuch N, N: eine positive Ganzzahl), die für jeweilige Erkennungsfelder (z.B. für Namen, Adressen, alphanumerische Symbole und dergleichen) ausgebildet sind, und das von dem Client 100 empfangene Benutzerwörterbuch 124a (eine Vielzahl von Arten von Wörterbüchern kann gleichzeitig verwendet sein), und wählt diese aus.
Es sei darauf hingewiesen, dass die Vielzahl von Arten von Erkennungswörterbüchern 225 für jede Wörterbuchverwaltungsinformation 124c (Eingabemaskenkennung, nachstehend beschrieben), die von dem Client 100 gesendet ist, ausgebildet sind. Jedem Erkennungswörterbuch 225 ist eine Erkennungswörterkennung angehängt, die das Erkennungsfeld jenes Erkennungswörterbuches anzeigt. Das Wörterbuchverwaltungsmodul 223 verwaltet eine Kennungstabelle 223a, die Erkennungswörterbuchkennungen und die Eingabemaskenkennungen einander korrespondierend speichert, wie gemäß 5 gezeigt.
Ein Spracherkennungsmodul 224 führt eine Spracherkennung unter Verwendung des Erkennungswörterbuchs oder -wörterbüchern 225 und des Benutzerwörterbuchs 124a, das zur Spracherkennung durch das Wörterbuchverwaltungsmodul 223 ausgewiesen ist, auf der Grundlage der Spracherkennungsdaten 124b und der Wörterbuchverwaltungsinformationen 124c aus, die von dem Client 100 empfangen sind.
Es sei darauf hingewiesen, dass das Benutzerwörterbuch 124a durch den Benutzer ausgebildet ist, um Erkennungswörter zu registrieren, die eine Spracherkennung zu durchlaufen haben, und speichert Aussprachen und Schreibweisen von zu erkennenden Wörtern einander korrespondierend, wie z.B. gemäß 3 gezeigt.
Die Spracherkennungsdaten 124b können entweder Sprachdaten, die durch das Spracheingabemodul 121 A/D-umgewan delt sind, oder Daten sein, die durch Codieren jener Sprachdaten erhalten sind.
Die Wörterbuchverwaltungsinformationen 124c zeigen ein Eingabeziel und dergleichen an. Beispielsweise sind die Wörterbuchverwaltungsinformationen 124c eine Kennung (Eingabemaskenkennung), die die Art von Eingabemaske angeben, wenn der Server 200 eine Eingabesprache erkennt und Textdaten, die jenem Spracherkennungsergebnis entsprechen, in jede Eingabemaske eingibt, die ein Spracheingabefenster definiert, das durch das Spracherkennungssystem des ersten Ausführungsbeispiels angezeigt ist, wie gemäß 4 gezeigt. Der Client 100 sendet diese Eingabemaskenkennung zu dem Server 200 als die Wörterbuchverwaltungsinformationen 124c. In dem Server 200 führt das Wörterbuchverwaltungsmodul 223 einen Look-up bei der Kennungstabelle 223a durch, um eine Erkennungswörterbuchkennung zu erhalten, die der empfangenen Eingabemaskenkennung entspricht, und bestimmt ein Erkennungswörterbuch 225, das bei der Spracherkennung zu verwenden ist.
Der durch das Spracherkennungssystem des ersten Ausführungsbeispiels ausgeführte Prozess ist nachstehend durch Verwendung von 6 beschrieben.
6 zeigt ein Ablaufdiagramm des Prozesses, der durch das Spracherkennungssystem des ersten Ausführungsbeispiels ausgeführt wird.
In Schritt S101 sendet der Client 100 das Benutzerwörterbuch 124a zu dem Server 200.
In Schritt S201 empfängt der Server 200 das Benutzerwörterbuch 124a von dem Client 100.
In Schritt S102 sendet der Client 100, wenn Sprache in eine Eingabemaske als eine Zielspracheingabe eingegeben wird, die Eingabemaskenkennung jener Eingabemaske zu dem Server 200 als die Wörterbuchverwaltungsinformationen 124c.
In Schritt S202 empfängt der Server 200 die Eingabemaskenkennung von dem Client 100 als die Wörterbuchverwaltungsinformationen 124c.
In Schritt S203 führt der Server 200 einen Look-up bei der Kennungstabelle 223a unter Verwendung der Wörterbuchverwaltungsinformationen 124c durch, um eine Erkennungswörterbuchkennung zu erhalten, die der empfangenen Eingabemaskenkennung entspricht, und bestimmt ein Erkennungswörterbuch 225, das bei der Spracherkennung zu verwenden ist.
In Schritt S103 sendet der Client 100 Spracherkennungsdaten 124b, die Spracheingabe als Textdaten sind, die in jede Eingabemaske einzugeben sind, zu dem Server 200.
In Schritt S204 empfängt der Server 200 die Spracherkennungsdaten, die jeder Eingabemaske entsprechen, von dem Client 100.
In Schritt S205 führt der Server 200 eine Spracherkennung der Spracherkennungsdaten 124b in dem Spracherkennungsmodul 224 unter Verwendung des Erkennungswörterbuchs 225 und des Benutzerwörterbuchs 124a aus, das zur Spracherkennung durch das Wörterbuchverwaltungsmodul 223 ausgewiesen ist.
In dem ersten Ausführungsbeispiel werden alle Erkennungswörter, die in dem von dem Client 100 zu dem Server 200 gesendeten Benutzerwörterbuch 124a enthalten sind, bei einer Spracherkennung durch das Spracherkennungsmodul 224 verwendet.
In Schritt S206 sendet der Server 200 das durch das Spracherkennungsmodul 224 erhaltene Spracherkennungsergebnis zu dem Client 100.
In Schritt S104 empfängt der Client 100 das Spracherkennungsergebnis, das jeder Eingabemaske entspricht, von dem Server 200 und speichert Textdaten, die dem Spracherkennungsergebnis entsprechen, in der entsprechenden Eingabemaske.
Der Client 100 prüft in Schritt S105, ob die Verarbeitung zu beenden ist. Ist die Verarbeitung nicht zu beenden (NEIN in Schritt S105), dann kehrt der Ablauf zu Schritt S102 zurück, um die Verarbeitung zu wiederholen. Ist demgegenüber die Verarbeitung zu beenden (JA in Schritt S105), dann informiert der Client 100 den Server 200 bezüglich des Endes der Verarbeitung und beendet die Verarbeitung.
In Schritt S207 wird geprüft, ob eine Verarbeitungsendanweisung von dem Client 100 erfasst ist. Ist keine Verarbeitungsendanweisung erfasst (NEIN in Schritt S207), dann kehrt der Ablauf zu Schritt S202 zurück, um die vorstehend beschriebenen Prozesse zu wiederholen. Ist demgegenüber die Verarbeitungsendanweisung erfasst (JA in Schritt S207), dann endet die Verarbeitung.
Bei der vorstehend beschriebenen Verarbeitung werden, wenn Sprache in eine Eingabemaske als Zielspracheingabe eingegeben wird, jener Einsprachemaske entsprechende Wörterbuchverwaltungsinformationen 124c von dem Client 100 zu dem Server 200 gesendet. Alternativ können die Wörterbuchverwaltungsinformationen 124c gesendet werden, wenn die Eingabemaske als eine Zielspracheingabe durch eine Anweisung von der Eingabeeinrichtung 106 fokussiert wird (die Eingabemaske als eine Zielspracheingabe bestimmt wird).
In dem Server 200 wird eine Spracherkennung durchgeführt, nachdem alle Spracherkennungsdaten 124b empfangen sind. Alternativ kann jedes Mal dann, wenn Sprache als Textdaten in eine gegebene Eingabemaske eingegeben werden, der Abschnitt von Spracherkennungsdaten 124b rahmenweise zu dem Server 200 gesendet werden (beispielsweise stellt ein Rahmen 10 ms Sprachdaten dar) und kann eine Spracherkennung in Echtzeit durchgeführt werden.
Wie vorstehend gemäß dem ersten Ausführungsbeispiel beschrieben, kann in dem Client-Server-Spracherkennungssystem, da der Server 200 eine Spracherkennung von Spracherkennungsdaten 124b unter Verwendung sowohl eines geeigneten Erkennungswörterbuchs 225 als auch des Benutzerwörterbuchs 124a durchführt, die Spracherkennungspräzision in dem Server 200 verbessert werden, während die Verarbeitungslast unter Verwendung von Speicherressourcen verringert wird, die mit der Spracherkennung in dem Client 100 assoziiert sind.
[Zweites Ausführungsbeispiel]
In dem ersten Ausführungsbeispiel verwendet der Server 200 womöglich, falls keine in dem Benutzerwörterbuch 124a zu speichernden Erkennungsworte erzeugt werden, da das Benutzerwörterbuch 124a nicht verwendet werden muss, alle Erkennungsworte in dem Benutzerwörterbuch 124a bei Erkennung lediglich dann, wenn eine Benutzungsanforderung des Benutzerwörterbuchs 124a von dem Client 100 empfangen wird.
In diesem Fall ist eine Flagge, die anzeigt, ob das Benutzerwörterbuch 124a verwendet ist, als die Wörterbuchverwaltungsinformationen 124c hinzugefügt, wodurch der Server 200 bezüglich des Vorhandenseins/Fehlens der Verwendung des Benutzerwörterbuchs 124a informiert wird.
[Drittes Ausführungsbeispiel]
Da einige Zielworte in dem Benutzerwörterbuch 124a abhängig von einem Eingabeziel, der Situation und dergleichen nicht verwendet werden, werden womöglich lediglich spezifische Erkennungsworte in dem Benutzerwörterbuch 124a bei einer Erkennung abhängig von dem Eingabeziel und der Situation verwendet.
In einem derartigen Fall können, wenn das Benutzerwörterbuch durch Ausweisen von Eingabemaskenerkennungen für jeweilige Erkennungsworte verwaltet wird, wie gemäß 7 gezeigt, lediglich Erkennungsworte bei der Erkennung verwendet werden, die eine Eingabemaskenkennung der bei der Spracheingabe verwendeten Eingabemaske aufweisen. Alternativ kann eine Vielzahl von Eingabemaskenkennungen für ein gegebenes Erkennungswort ausgewiesen werden. Außerdem kann das Benutzerwörterbuch durch ein Ausweisen von Erkennungswörterbuchkennungen anstelle von Eingabemaskenkennungen verwaltet werden, wie gemäß 8 gezeigt.
[Viertes Ausführungsbeispiel]
Durch Kombination des zweiten und drittes Ausführungsbeispiels kann die Effizienz des Spracherkennungsprozesses des Spracherkennungsmoduls 224 weiter verbessert werden.
[Fünftes Ausführungsbeispiel]
Ein Großteil der Prozesse der Vorrichtung der Erfindung kann durch Programme implementiert werden. Wie vorstehend beschrieben, wird die Erfindung, da die Vorrichtung eine Mehrzweckvorrichtung verwenden kann, wie einen Personal Computer, ebenso durch Bereitstellen eines Speichermediums, das einen Programmcode eines Softwareprogramms aufzeichnet, der die Funktionen der vorstehend beschriebenen Ausführungsbeispiele implementieren kann, für ein System oder eine Vorrichtung, und durch Auslesen und Ausführen des in dem Speichermedium gespeicherten Programmcodes durch einen Computer des Systems oder der Vorrichtung gelöst. In diesem Fall implementiert der aus dem Speichermedium ausgelesene Programmcode selbst die Funktionen der vorstehend beschriebenen Ausführungsbeispiele, und das Speichermedium, das den Programmcode speichert, bildet die Erfindung. Als das Speichermedium zum Bereitstellen des Programmcodes kann beispielsweise eine Diskette, eine Festplatte, eine optische Platte, eine magnetooptische Platte, eine CD-ROM, ein Magnetband, eine nicht-flüchtige Speicherkarte, ein ROM und dergleichen verwendet werden.
Die Erfindung kann ebenso durch Bereitstellen des Speichermediums, das den Programmcode aufzeichnet, für einen Computer, und durch Ausführen eines Teils oder der Gesamtheit der tatsächlichen Prozesse, die durch ein auf dem Computer laufendes BS ausgeführt sind, gelöst werden. Außerdem können die Funktionen der vorstehend beschriebenen Ausführungsbeispiele durch einen Teil oder die Gesamtheit von tatsächlichen Verarbeitungsvorgängen, die durch eine CPU oder dergleichen ausgeführt sind, implementiert werden, die in einer Funktionserweiterungsplatine oder einer Funktionserweiterungseinheit angeordnet ist, die in den Computer eingefügt ist oder mit diesem verbunden wird, nachdem der aus dem Speichermedium ausgelesene Programmcode in einen Speicher der Erweiterungsplatine oder -einheit geschrieben ist. Wird die Erfindung bei dem Speichermedium angewendet, dann speichert das Speichermedium einen Programmcode, der dem gemäß 3 gezeigten Ablaufdiagramm entspricht.
Da viele offensichtlich sehr unterschiedliche Ausführungsbeispiele der Erfindung ausgeführt werden können, ohne von deren Schutzbereich abzuweichen, ist zu verstehen, dass die Erfindung nicht durch ihre spezifischen Ausführungsbeispiele beschränkt ist, sondern ausschließlich, wie in den beiliegenden Patentansprüchen definiert.

Claims

Client-/Server-Spracherkennungssystem zum Erkennen einer Spracheingabe bei einem Client (100) durch einen Server (200), wobei der Client (100) umfasst: eine Spracheingabeeinrichtung (121, 123) zum Eingeben von Sprache, eine Benutzerwörterbuchhalteeinrichtung zum Halten eines Benutzerwörterbuchs (124a), das durch Registrieren von durch den Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, und eine Übertragungseinrichtung (122) zum Übertragen von durch die Spracheingabeeinrichtung (121) eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und des Benutzerwörterbuchs (124a) zu dem Server (200), und wobei der Server (200) umfasst: eine Erkennungswörterbuchhalteeinrichtung zum Halten einer Vielzahl von Arten von Erkennungswörterbüchern (225), die für jeweilige Erkennungsfelder ausgebildet sind, eine Bestimmungseinrichtung (223) zum Bestimmen von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen (124c) entsprechen, aus der Vielzahl von Arten von Erkennungswörterbüchern (225) und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und eine Erkennungseinrichtung (224) zum Erkennen der Sprachdaten (124b) unter Verwendung zumindest des durch die Bestimmungseinrichtung (223) bestimmten Erkennungswörterbuchs (225).
System gemäß Anspruch 1, wobei die Erkennungseinrichtung (224) zum Erkennen der Sprachdaten (124b) unter Verwendung des durch die Bestimmungseinrichtung (223) bestimmten Erkennungswörterbuchs (225) und des von dem Client (100) empfangenen Benutzerwörterbuchs (124a) betreibbar ist.
System gemäß Anspruch 1 oder 2, wobei die Spracheingabeeinrichtung (121, 123) eine Anzeigeeinrichtung (123) zum Anzeigen einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (124c) eine Eingabenmaskenkennung darstellen, die eine Art der Eingabemaske angibt.
System gemäß einem der Ansprüche 1 bis 3, wobei die Wörterbuchverwaltungsinformationen (124c) Informationen enthalten, die angeben, ob das Benutzerwörterbuch (124a) bei einer Erkennung der Sprachdaten (124b) zu verwenden ist.
System gemäß einem der vorstehenden Ansprüche, wobei das Benutzerwörterbuch (124a) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist.
System gemäß Anspruch 3, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern von zumindest einer Eingabemaskekennung und den Zielerkennungswörtern in Entsprechung miteinander ausgebildet ist.
System gemäß einem der vorstehenden Ansprüche, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern von zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet ist.
System gemäß einem der vorstehenden Ansprüche, wobei die Sprachdaten (124b) durch Codierung jener Sprachdaten erhaltene Daten sind.
Verfahren zum Steuern eines Client-/Server-Spracherkennungssystems zum Erkennen einer Spracheingabe bei einem Client (100) durch einen Server (200), mit: einem Spracheingabeschritt des Eingehens von Sprache, und einem Übertragungsschritt des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und eines in dem Client (100) gehaltenen Benutzerwörterbuchs (124a), das durch ein Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server, einem Bestimmungsschritt des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen entsprechen, aus einer Vielzahl von Arten von in dem Server (200) gehaltenen Erkennungswörterbüchern (225), die für jeweilige Erkennungsfelder ausgebildet sind, und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und einem Erkennungsschritt des Erkennens der Sprachdaten (124b) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225).
Verfahren gemäß Anspruch 9, wobei der Erkennungsschritt einen Schritt des Erkennens der Sprachdaten (124b) unter Verwendung des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225) und des von dem Client (100) empfangenen Benutzerwörterbuchs (124a) enthält.
Verfahren gemäß Anspruch 9 oder 10, wobei der Spracheingabeschritt einen Anzeigeschritt des Anzeigens einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (124c) eine Eingabemaskenkennung darstellen, die eine Art von Eingabemaske angibt.
Verfahren gemäß einem der Ansprüche 9 bis 11, wobei die Wörterbuchverwaltungsinformationen (124c) Informationen enthalten, die angeben, ob das Benutzerwörterbuch (124a) bei einer Erkennung der Sprachdaten (124b) zu verwenden ist.
Verfahren gemäß einem der Ansprüche 9 bis 12, wobei das Benutzerwörterbuch (124a) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet wird.
Verfahren gemäß Anspruch 11, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern von zumindest einer Eingabemaskenkennung und der Zielerkennungswörter in Entsprechung miteinander ausgebildet wird.
Verfahren gemäß einem der Ansprüche 9 bis 14, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern von zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet wird.
Verfahren gemäß einem der Ansprüche 9 bis 15, wobei die Sprachdaten (124b) durch Codieren jener Sprachdaten erhaltene Daten sind.
Computerlesbarer Speicher, der einen Programmcode zur Steuerung eines Client-/Server-Spracherkennungssystems zum Erkennen einer Spracheingabe bei einem Client durch einen Server speichert, mit: einem Programmcode eines Spracheingabeschritts des Eingebens von Sprache, einem Programmcode eines Übertragungsschritts des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und eines in dem Client (100) gehaltenen Benutzerwörterbuchs (124a), das durch Registrieren von durch den Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server (200), einem Programmcode eines Bestimmungsschritts des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen (124c) entsprechen, aus einer Vielzahl von Arten von in dem Server (200) gehaltenen Erkennungswörterbüchern (225), die für jewei lige Erkennungsfelder ausgebildet sind, und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und einem Programmcode eines Erkennungsschritts des Erkennens der Sprachdaten (124b) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225).
Spracherkennungsserver (200) zum Erkennen einer Spracheingabe bei einem Client (100) und zum Senden eines Erkennungsergebnisses zu dem Client (100), mit: einer Empfangseinrichtung zum Empfangen von dem Client (100) von Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines Benutzerwörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, einer Erkennungswörterbuchhalteeinrichtung zum Halten einer Vielzahl von Arten von für jeweilige Erkennungsfelder ausgebildeten Erkennungswörterbüchern (225), einer Bestimmungseinrichtung (223) zum Bestimmen von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen (124c) entsprechen, aus der Vielzahl von Arten von Erkennungswörterbüchern (225) und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und einer Erkennungseinrichtung (224) zum Erkennen der Sprachdaten unter Verwendung zumindest des durch die Bestimmungseinrichtung (223) bestimmten Erkennungswörterbuchs (225).
Server gemäß Anspruch 18, wobei die Erkennungseinrichtung (224) zum Erkennen der Sprachdaten (124b) unter Verwendung des durch die Bestimmungseinrichtung (223) bestimmten Erkennungswörterbuchs (225) und des von dem Client (100) empfangenen Benutzerwörterbuchs (124a) betreibbar ist.
Server gemäß Anspruch 18 oder 19, wobei die Sprachdaten (124b) durch Codieren jener Sprachdaten erhaltene Daten sind.
Spracherkennungsclient (100) zum Senden von durch einen Server (200) zu erkennender Eingabesprache und zum Empfangen eines Erkennungsergebnisses jener Sprache, mit: einer Spracheingabeeinrichtung (121, 123) zum Eingeben von Sprache, einer Benutzerwörterbuchhalteeinrichtung zum Halten eines Benutzerwörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, und einer Übertragungseinrichtung (122) zum Übertragen von durch die Spracheingabeeinrichtung eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und des Benutzerwörterbuchs (124a) zu dem Server (200).
Client gemäß Anspruch 21, wobei die Spracheingabeeinrichtung (121, 123) eine Anzeigeeinrichtung (123) zum Anzeigen einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (124c) eine Eingabemaskenkennung darstellen, die eine Art von Eingabemaske angibt.
Client gemäß Anspruch 21 oder 22, wobei die Wörterbuchverwaltungsinformationen (124c) Informationen enthal ten, die angeben, ob das Benutzerwörterbuch (124a) bei einer Erkennung der Sprachdaten zu verwenden ist.
Client gemäß einem der Ansprüche 21 bis 23, wobei das Benutzerwörterbuch (124a) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist.
Client gemäß Anspruch 22, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern zumindest einer Eingabemaskenkennung und der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist.
Client gemäß einem der Ansprüche 21 bis 25, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet ist.
Client gemäß einem der Ansprüche 21 bis 25, wobei die Sprachdaten (124b) durch Codieren jener Sprachdaten erhaltene Daten sind.
Verfahren zum Steuern eines Spracherkennungsservers (200) zum Erkennen einer Spracheingabe bei einem Client (100) und zum Senden eines Erkennungsergebnisses zu dem Client (100), mit: einem Empfangsschritt des Empfangens von dem Client von Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines Benutzerwörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, einem Bestimmungsschritt des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen (124c) entsprechen, aus einer Vielzahl von Arten von in dem Server (200) gehaltenen Erkennungswörterbüchern (225), die für jeweilige Erkennungsfelder ausgebildet sind, und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und einem Erkennungsschritt des Erkennens der Sprachdaten (124b) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225).
Verfahren gemäß Anspruch 28, wobei der Erkennungsschritt einen Schritt des Erkennens der Sprachdaten (124b) unter Verwendung des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225) und des von dem Client (100) empfangenen Benutzerwörterbuchs (124a) enthält.
Verfahren gemäß Anspruch 28 oder 29, wobei die Sprachdaten (124b) durch Codieren jener Sprachdaten erhaltene Daten sind.
Verfahren zum Steuern eines Spracherkennungsclients (100) zum Senden von durch einen Server (200) zu erkennender Eingabesprache und zum Empfangen eines Erkennungsergebnisses von jener Sprache, mit: einem Spracheingabeschritt des Eingebens von Sprache, und einem Übertragungsschritt des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines in dem Client (100) gehaltenen Benutzer wörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server (200).
Verfahren gemäß Anspruch 31, wobei der Spracheingabeschritt einen Anzeigeschritt des Anzeigens einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (124c) eine Eingabemaskenkennung darstellen, die eine Art von Eingabemaske angibt.
Verfahren gemäß Anspruch 31 oder 32, wobei die Wörterbuchverwaltungsinformationen (124c) Informationen enthalten, die angeben, ob das Benutzerwörterbuch (124a) bei einer Erkennung der Sprachdaten (124b) zu verwenden ist.
Verfahren gemäß einem der Ansprüche 31 bis 33, wobei das Benutzerwörterbuch (124a) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist.
Verfahren gemäß Anspruch 32, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern zumindest einer Eingabemaskenkennung und der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist.
Verfahren gemäß einem der Ansprüche 31 bis 35, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet ist.
Verfahren gemäß einem der Ansprüche 31 bis 36, wobei die Sprachdaten (124b) durch Codieren jener Sprachdaten erhaltene Daten sind.
Computerlesbarer Speicher, der einen Programmcode zur Steuerung eines Spracherkennungsservers (200) zum Erkennen einer Spracheingabe bei einem Client (100) und zum Senden eines Erkennungsergebnisses zu dem Client (100) speichert, mit: einem Programmcode eines Empfangsschritts des Empfangens von dem Client (100) von Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines Benutzerwörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, einem Programmcode eines Bestimmungsschritts des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen (124c) entsprechen, aus einer Vielzahl von Arten von in dem Server (200) gehaltenen Erkennungswörterbüchern (225), die für jeweilige Erkennungsfelder ausgebildet sind, und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und einem Programmcode eines Erkennungsschritts des Erkennens der Sprachdaten (124b) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225).
Computerlesbarer Speicher, der einen Programmcode zur Steuerung eines Spracherkennungsclients (100) zum Senden einer durch einen Server (200) zu erkennenden Eingabesprache und zum Empfangen eines Erkennungsergebnisses jener Sprache speichert, mit: einem Programmcode eines Spracheingabeschritts des Eingebens von Sprache, und einem Programmcode eines Übertragungsschritts des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines in dem Client (100) gehaltenen Benutzerwörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server (200).
Prozessorimplementierbares Anweisungsprodukt, das eine programmierbare Computervorrichtung veranlasst, alle Schritte des Verfahrens gemäß einem der Ansprüche 28 bis 37 auszuführen, wenn das Anweisungsprodukt auf der programmierbaren Computervorrichtung läuft.