DE60126462T2 - Client/Server basiertes Spracherkennungssystem - Google Patents
Client/Server basiertes Spracherkennungssystem Download PDFInfo
- Publication number
- DE60126462T2 DE60126462T2 DE60126462T DE60126462T DE60126462T2 DE 60126462 T2 DE60126462 T2 DE 60126462T2 DE 60126462 T DE60126462 T DE 60126462T DE 60126462 T DE60126462 T DE 60126462T DE 60126462 T2 DE60126462 T2 DE 60126462T2
- Authority
- DE
- Germany
- Prior art keywords
- recognition
- dictionary
- client
- speech
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 37
- 238000001514 detection method Methods 0.000 claims description 17
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 101100189378 Caenorhabditis elegans pat-3 gene Proteins 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer And Data Communications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Description
- GEBIET DER ERFINDUNG
- Die vorliegende Erfindung bezieht sich auf ein Client-Server-Spracherkennungssystem zum Erkennen einer Spracheingabe bei einem Client durch einen Server, einen Spracherkennungs-Server, einen Spracherkennungs-Client, deren Steuerverfahren und einen computerlesbaren Speicher.
- HINTERGRUND DER ERFINDUNG
- In den vergangenen Jahren wurde Sprache als eine Eingabeschnittstelle zusätzlich zu einer Tastatur, Maus und dergleichen verwendet.
- Die Erkennungsrate der eine Eingabesprache erkennenden Spracherkennung verringert sich jedoch und erfordert eine längere Verarbeitungszeit, wenn sich die Anzahl von einer Spracherkennung zu unterziehenden Erkennungswörtern größer wird. Aus diesem Grund wird bei einem gegenwärtigen Verfahren eine Vielzahl von Erkennungswörterbüchern oder -lexika ausgebildet, die eine Spracherkennung zu durchlaufende Erkennungswörter (z.B. Aussprachen und Schreibweisen) registrieren und selektiv verwendet werden (eine Vielzahl von Erkennungswörterbüchern kann zum gleichen Zeitpunkt verwendet werden).
- Ebenso können nicht registrierte Worte nicht erkannt werden. Als ein Verfahren zum Lösen dieses Problems kann ein Benutzerwörterbuch oder -lexikon (das durch den Benutzer ausgebildet ist, um eine Spracherkennung zu durchlaufende Erkennungswörter zu registrieren) verwendet werden.
- Demgegenüber wurde ein Client-Server-Spracherkennungssystem studiert, um eine Spracherkennung auf einem Endgerät mit unzureichenden Ressourcen zu implementieren.
- Diese drei Techniken sind dem Fachmann bekannt, aber ein System, das diese drei Techniken kombiniert, wurde noch nicht realisiert.
- Die WO-A-99/26233 offenbart ein Client-Server-Spracherkennungssystem, in welchem durch einen Client erzeugte Sprachdaten zu einem Spracherkennungsserver übertragen werden, in welchem die Sprache erkannt und die erkannte Sprache zu dem Client zurück gegeben wird.
- KURZFASSUNG DER ERFINDUNG
- Gemäß einer Ausgestaltung stellt die Erfindung ein Client-/Server-Spracherkennungssystem zum Erkennen einer Spracheingabe bei einem Client durch einen Server bereit,
wobei der Client umfasst:
eine Spracheingabeeinrichtung zum Eingeben von Sprache,
eine Benutzerwörterbuchhalteeinrichtung zum Halten eines Benutzerwörterbuchs, das durch Registrieren von durch den Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, und
eine Übertragungseinrichtung zum Übertragen von durch die Spracheingabeeinrichtung eingegebenen Sprachda ten, von Wörterbuchverwaltungsinformationen, die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und des Benutzerwörterbuchs zu dem Server, und
wobei der Server umfasst:
eine Erkennungswörterbuchhalteeinrichtung zum Halten einer Vielzahl von Arten von Erkennungswörterbüchern, die für jeweilige Erkennungsfelder ausgebildet sind,
eine Bestimmungseinrichtung zum Bestimmen von einem oder mehreren Erkennungswörterbüchern, die den von dem Client empfangenen Wörterbuchverwaltungsinformationen entsprechen, aus der Vielzahl von Arten von Erkennungswörterbüchern und dem von dem Client empfangenen Benutzerwörterbuch, und
eine Erkennungseinrichtung zum Erkennen der Sprachdaten unter Verwendung zumindest des durch die Bestimmungseinrichtung bestimmten Erkennungswörterbuchs. - Weitere Merkmale und Vorteile der Erfindung werden aus der nachstehenden Beschreibung in Verbindung mit den beiliegenden Zeichnungen offensichtlich, in welchen gleiche Bezugszeichen die gleichen oder ähnliche Abschnitte durch die Figuren hindurch bezeichnen.
- KURZE BESCHREIBUNG DER ZEICHNUNGEN
- Es zeigen:
-
1 eine Blockdarstellung der Hardware-Anordnung eines Spracherkennungssystems des ersten Ausführungsbeispiels, -
2 eine Blockdarstellung der Funktionsanordnung des Spracherkennungssystems des ersten Ausführungsbeispiels, -
3 den Aufbau eines Benutzerwörterbuchs des ersten Ausführungsbeispiels, -
4 ein Spracheingabefenster des ersten Ausführungsbeispiels, -
5 eine Kennungstabelle des ersten Ausführungsbeispiels, -
6 ein Ablaufdiagramm des Prozesses, der durch das Spracherkennungssystem des ersten Ausführungsbeispiels ausgeführt wird, -
7 den Aufbau eines Benutzerwörterbuchs, dem Eingabemaskenkennungen angehängt sind, gemäß dem dritten Ausführungsbeispiel, und -
8 den Aufbau eines Benutzerwörterbuchs, dem Erkennungswörterbuchkennungen angehängt sind, gemäß dem dritten Ausführungsbeispiel. - BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
- Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung sind nachstehend ausführlich unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben.
- [Erstes Ausführungsbeispiel]
-
1 zeigt die Hardware-Anordnung eines Spracherkennungssystems des ersten Ausführungsbeispiels. - Eine CPU
101 steuert systematisch einen gesamten Client100 . Die CPU101 lädt in einem ROM102 gespeicherte Programme in einen RAM103 und führt verschiedene Prozesse auf der Grundlage der geladenen Programme aus. Der ROM102 speichert verschiedene Programme von durch die CPU101 auszuführenden Prozessen. Der RAM103 stellt einen Speicherbereich bereit, der zum Ausführen von verschiedenen in dem ROM102 gespeicherten Programmen erforderlich ist. - Eine Sekundärspeichereinrichtung
104 speichert ein BS und verschiedene Programme. Wird der Client100 nicht unter Verwendung einer Vielzweckvorrichtung implementiert, wie einem Personal-Computer oder dergleichen, sondern einer spezialisierten Vorrichtung, dann kann der ROM102 das BS und verschiedene Programme speichern. Durch Laden der gespeicherten Programme in den RAM103 kann die CPU101 Prozesse ausführen. Es kann als die Sekundärspeichereinrichtung104 ein Festplattengerät, ein Diskettengerät, eine CD-ROM oder dergleichen verwendet werden. Das heißt, Speichermedien sind nicht im Besonderen eingeschränkt. - Eine Netzwerkschnittstelle
105 ist mit einer Netzwerkschnittstelle205 eines Servers200 verbunden. - Eine Eingabeeinrichtung
106 umfasst eine Maus, eine Tastatur, ein Mikrofon und dergleichen, um eine Eingabe von verschiedenen Anweisungen an durch die CPU101 auszuführende Prozesse zu ermöglichen, und kann durch gleichzeitiges Verbinden dieser Vielzahl von Geräten verwendet werden. Eine Ausgabeeinrichtung107 umfasst eine Anzeige (CRT, LCD oder dergleichen) und zeigt durch die Eingabeeinrichtung106 eingegebene Informationen und Anzeigefenster an, die durch verschiedene durch die CPU101 ausgeführte Prozesse gesteuert sind. Ein Bus108 verbindet verschiedene Aufbaukomponenten des Clients100 untereinander. - Eine CPU
201 steuert systematisch den gesamten Server200 . Die CPU201 lädt in einem ROM202 gespeicherte Programme in einen RAM203 und führt verschiedene Prozesse auf der Grundlage der geladenen Programme aus. Der ROM202 speichert verschiedene Programme von durch die CPU201 auszuführenden Prozessen. Der RAM203 stellt einen Speicherbereich bereit, der zum Ausführen von verschiedenen in dem ROM202 gespeicherten Programmen erforderlich ist. - Eine Sekundärspeichereinrichtung
204 speichert ein BS und verschiedene Programme. Ist der Server200 nicht unter Verwendung einer vielseitigen Vorrichtung implementiert, wie einem Personal-Computer oder dergleichen, sondern einer spezialisierten Vorrichtung, dann kann der ROM202 das BS und verschiedene Programme speichern. Durch Laden der gespeicherten Programme in den RAM203 kann die CPU201 Prozesse ausführen. Als die Sekundärspeichereinrichtung204 kann ein Festplattengerät, ein Diskettengerät, eine CD-ROM oder dergleichen verwendet werden. Das heißt, Speichermedien sind nicht im Besonderen eingeschränkt. - Die Netzwerkschnittstelle
205 ist mit der Netzwerkschnittstelle105 des Clients100 verbunden. Ein Bus206 hat verschiedene Aufbaukomponenten des Servers200 untereinander. - Die Funktionsanordnung des Spracherkennungssystems des ersten Ausführungsbeispiels ist nachstehend unter Bezugnahme auf
2 beschrieben. -
2 zeigt eine Blockdarstellung der Funktionsanordnung des Spracherkennungssystems des Ausführungsbeispiels. - In dem Client
100 gibt ein Spracheingabemodul121 Sprache ein, die durch den Benutzer über ein Mikrofon (Eingabeeinrichtung106 ) geäußert ist, und führt eine A/D-Umwandlung bei Eingabesprachdaten (Spracherkennungsdaten) durch, die eine Spracherkennung zu durchlaufen haben. Ein Kommunikationsmodul122 sendet ein Benutzerwörterbuch124a , Spracherkennungsdaten124b , Wörterbuchverwaltungsinformationen124c und dergleichen zu dem Server200 . Ebenso empfängt das Kommunikationsmodul122 ein Spracherkennungsergebnis der gesendeten Spracherkennungsdaten124b und dergleichen von dem Server200 . - Ein Anzeigemodul
123 zeigt das von dem Server200 empfangene Erkennungsergebnis an, während dieses z.B. in einer Eingabemaske gespeichert wird, die auf der Ausgabeeinrichtung107 durch den Prozess angezeigt ist, der durch das Spracherkennungssystem dieses Ausführungsbeispiels ausgeführt ist. - In dem Server
200 empfängt ein Kommunikationsmodul221 das Benutzerwörterbuch124a , Spracherkennungsdaten124b , Wörterbuchverwaltungsinformationen124c und dergleichen von dem Client100 . Das Kommunikationsmodul221 sendet ebenso das Spracherkennungsergebnis der Spracherkennungsdaten124b und dergleichen zu dem Client100 . - Ein Wörterbuchverwaltungsmodul
223 vermittelt eine Vielzahl von Arten von Erkennungswörterbüchern225 (Erkennungswörterbuch 1 bis Erkennungswörterbuch N, N: eine positive Ganzzahl), die für jeweilige Erkennungsfelder (z.B. für Namen, Adressen, alphanumerische Symbole und dergleichen) ausgebildet sind, und das von dem Client100 empfangene Benutzerwörterbuch124a (eine Vielzahl von Arten von Wörterbüchern kann gleichzeitig verwendet sein), und wählt diese aus. - Es sei darauf hingewiesen, dass die Vielzahl von Arten von Erkennungswörterbüchern
225 für jede Wörterbuchverwaltungsinformation124c (Eingabemaskenkennung, nachstehend beschrieben), die von dem Client100 gesendet ist, ausgebildet sind. Jedem Erkennungswörterbuch225 ist eine Erkennungswörterkennung angehängt, die das Erkennungsfeld jenes Erkennungswörterbuches anzeigt. Das Wörterbuchverwaltungsmodul223 verwaltet eine Kennungstabelle223a , die Erkennungswörterbuchkennungen und die Eingabemaskenkennungen einander korrespondierend speichert, wie gemäß5 gezeigt. - Ein Spracherkennungsmodul
224 führt eine Spracherkennung unter Verwendung des Erkennungswörterbuchs oder -wörterbüchern225 und des Benutzerwörterbuchs124a , das zur Spracherkennung durch das Wörterbuchverwaltungsmodul223 ausgewiesen ist, auf der Grundlage der Spracherkennungsdaten124b und der Wörterbuchverwaltungsinformationen124c aus, die von dem Client100 empfangen sind. - Es sei darauf hingewiesen, dass das Benutzerwörterbuch
124a durch den Benutzer ausgebildet ist, um Erkennungswörter zu registrieren, die eine Spracherkennung zu durchlaufen haben, und speichert Aussprachen und Schreibweisen von zu erkennenden Wörtern einander korrespondierend, wie z.B. gemäß3 gezeigt. - Die Spracherkennungsdaten
124b können entweder Sprachdaten, die durch das Spracheingabemodul121 A/D-umgewan delt sind, oder Daten sein, die durch Codieren jener Sprachdaten erhalten sind. - Die Wörterbuchverwaltungsinformationen
124c zeigen ein Eingabeziel und dergleichen an. Beispielsweise sind die Wörterbuchverwaltungsinformationen124c eine Kennung (Eingabemaskenkennung), die die Art von Eingabemaske angeben, wenn der Server200 eine Eingabesprache erkennt und Textdaten, die jenem Spracherkennungsergebnis entsprechen, in jede Eingabemaske eingibt, die ein Spracheingabefenster definiert, das durch das Spracherkennungssystem des ersten Ausführungsbeispiels angezeigt ist, wie gemäß4 gezeigt. Der Client100 sendet diese Eingabemaskenkennung zu dem Server200 als die Wörterbuchverwaltungsinformationen124c . In dem Server200 führt das Wörterbuchverwaltungsmodul223 einen Look-up bei der Kennungstabelle223a durch, um eine Erkennungswörterbuchkennung zu erhalten, die der empfangenen Eingabemaskenkennung entspricht, und bestimmt ein Erkennungswörterbuch225 , das bei der Spracherkennung zu verwenden ist. - Der durch das Spracherkennungssystem des ersten Ausführungsbeispiels ausgeführte Prozess ist nachstehend durch Verwendung von
6 beschrieben. -
6 zeigt ein Ablaufdiagramm des Prozesses, der durch das Spracherkennungssystem des ersten Ausführungsbeispiels ausgeführt wird. - In Schritt S101 sendet der Client
100 das Benutzerwörterbuch124a zu dem Server200 . - In Schritt S201 empfängt der Server
200 das Benutzerwörterbuch124a von dem Client100 . - In Schritt S102 sendet der Client
100 , wenn Sprache in eine Eingabemaske als eine Zielspracheingabe eingegeben wird, die Eingabemaskenkennung jener Eingabemaske zu dem Server200 als die Wörterbuchverwaltungsinformationen124c . - In Schritt S202 empfängt der Server
200 die Eingabemaskenkennung von dem Client100 als die Wörterbuchverwaltungsinformationen124c . - In Schritt S203 führt der Server
200 einen Look-up bei der Kennungstabelle223a unter Verwendung der Wörterbuchverwaltungsinformationen124c durch, um eine Erkennungswörterbuchkennung zu erhalten, die der empfangenen Eingabemaskenkennung entspricht, und bestimmt ein Erkennungswörterbuch225 , das bei der Spracherkennung zu verwenden ist. - In Schritt S103 sendet der Client
100 Spracherkennungsdaten124b , die Spracheingabe als Textdaten sind, die in jede Eingabemaske einzugeben sind, zu dem Server200 . - In Schritt S204 empfängt der Server
200 die Spracherkennungsdaten, die jeder Eingabemaske entsprechen, von dem Client100 . - In Schritt S205 führt der Server
200 eine Spracherkennung der Spracherkennungsdaten124b in dem Spracherkennungsmodul224 unter Verwendung des Erkennungswörterbuchs225 und des Benutzerwörterbuchs124a aus, das zur Spracherkennung durch das Wörterbuchverwaltungsmodul223 ausgewiesen ist. - In dem ersten Ausführungsbeispiel werden alle Erkennungswörter, die in dem von dem Client
100 zu dem Server200 gesendeten Benutzerwörterbuch124a enthalten sind, bei einer Spracherkennung durch das Spracherkennungsmodul224 verwendet. - In Schritt S206 sendet der Server
200 das durch das Spracherkennungsmodul224 erhaltene Spracherkennungsergebnis zu dem Client100 . - In Schritt S104 empfängt der Client
100 das Spracherkennungsergebnis, das jeder Eingabemaske entspricht, von dem Server200 und speichert Textdaten, die dem Spracherkennungsergebnis entsprechen, in der entsprechenden Eingabemaske. - Der Client
100 prüft in Schritt S105, ob die Verarbeitung zu beenden ist. Ist die Verarbeitung nicht zu beenden (NEIN in Schritt S105), dann kehrt der Ablauf zu Schritt S102 zurück, um die Verarbeitung zu wiederholen. Ist demgegenüber die Verarbeitung zu beenden (JA in Schritt S105), dann informiert der Client100 den Server200 bezüglich des Endes der Verarbeitung und beendet die Verarbeitung. - In Schritt S207 wird geprüft, ob eine Verarbeitungsendanweisung von dem Client
100 erfasst ist. Ist keine Verarbeitungsendanweisung erfasst (NEIN in Schritt S207), dann kehrt der Ablauf zu Schritt S202 zurück, um die vorstehend beschriebenen Prozesse zu wiederholen. Ist demgegenüber die Verarbeitungsendanweisung erfasst (JA in Schritt S207), dann endet die Verarbeitung. - Bei der vorstehend beschriebenen Verarbeitung werden, wenn Sprache in eine Eingabemaske als Zielspracheingabe eingegeben wird, jener Einsprachemaske entsprechende Wörterbuchverwaltungsinformationen
124c von dem Client100 zu dem Server200 gesendet. Alternativ können die Wörterbuchverwaltungsinformationen124c gesendet werden, wenn die Eingabemaske als eine Zielspracheingabe durch eine Anweisung von der Eingabeeinrichtung106 fokussiert wird (die Eingabemaske als eine Zielspracheingabe bestimmt wird). - In dem Server
200 wird eine Spracherkennung durchgeführt, nachdem alle Spracherkennungsdaten124b empfangen sind. Alternativ kann jedes Mal dann, wenn Sprache als Textdaten in eine gegebene Eingabemaske eingegeben werden, der Abschnitt von Spracherkennungsdaten124b rahmenweise zu dem Server200 gesendet werden (beispielsweise stellt ein Rahmen 10 ms Sprachdaten dar) und kann eine Spracherkennung in Echtzeit durchgeführt werden. - Wie vorstehend gemäß dem ersten Ausführungsbeispiel beschrieben, kann in dem Client-Server-Spracherkennungssystem, da der Server
200 eine Spracherkennung von Spracherkennungsdaten124b unter Verwendung sowohl eines geeigneten Erkennungswörterbuchs225 als auch des Benutzerwörterbuchs124a durchführt, die Spracherkennungspräzision in dem Server200 verbessert werden, während die Verarbeitungslast unter Verwendung von Speicherressourcen verringert wird, die mit der Spracherkennung in dem Client100 assoziiert sind. - [Zweites Ausführungsbeispiel]
- In dem ersten Ausführungsbeispiel verwendet der Server
200 womöglich, falls keine in dem Benutzerwörterbuch124a zu speichernden Erkennungsworte erzeugt werden, da das Benutzerwörterbuch124a nicht verwendet werden muss, alle Erkennungsworte in dem Benutzerwörterbuch124a bei Erkennung lediglich dann, wenn eine Benutzungsanforderung des Benutzerwörterbuchs124a von dem Client100 empfangen wird. - In diesem Fall ist eine Flagge, die anzeigt, ob das Benutzerwörterbuch
124a verwendet ist, als die Wörterbuchverwaltungsinformationen124c hinzugefügt, wodurch der Server200 bezüglich des Vorhandenseins/Fehlens der Verwendung des Benutzerwörterbuchs124a informiert wird. - [Drittes Ausführungsbeispiel]
- Da einige Zielworte in dem Benutzerwörterbuch
124a abhängig von einem Eingabeziel, der Situation und dergleichen nicht verwendet werden, werden womöglich lediglich spezifische Erkennungsworte in dem Benutzerwörterbuch124a bei einer Erkennung abhängig von dem Eingabeziel und der Situation verwendet. - In einem derartigen Fall können, wenn das Benutzerwörterbuch durch Ausweisen von Eingabemaskenerkennungen für jeweilige Erkennungsworte verwaltet wird, wie gemäß
7 gezeigt, lediglich Erkennungsworte bei der Erkennung verwendet werden, die eine Eingabemaskenkennung der bei der Spracheingabe verwendeten Eingabemaske aufweisen. Alternativ kann eine Vielzahl von Eingabemaskenkennungen für ein gegebenes Erkennungswort ausgewiesen werden. Außerdem kann das Benutzerwörterbuch durch ein Ausweisen von Erkennungswörterbuchkennungen anstelle von Eingabemaskenkennungen verwaltet werden, wie gemäß8 gezeigt. - [Viertes Ausführungsbeispiel]
- Durch Kombination des zweiten und drittes Ausführungsbeispiels kann die Effizienz des Spracherkennungsprozesses des Spracherkennungsmoduls
224 weiter verbessert werden. - [Fünftes Ausführungsbeispiel]
- Ein Großteil der Prozesse der Vorrichtung der Erfindung kann durch Programme implementiert werden. Wie vorstehend beschrieben, wird die Erfindung, da die Vorrichtung eine Mehrzweckvorrichtung verwenden kann, wie einen Personal Computer, ebenso durch Bereitstellen eines Speichermediums, das einen Programmcode eines Softwareprogramms aufzeichnet, der die Funktionen der vorstehend beschriebenen Ausführungsbeispiele implementieren kann, für ein System oder eine Vorrichtung, und durch Auslesen und Ausführen des in dem Speichermedium gespeicherten Programmcodes durch einen Computer des Systems oder der Vorrichtung gelöst. In diesem Fall implementiert der aus dem Speichermedium ausgelesene Programmcode selbst die Funktionen der vorstehend beschriebenen Ausführungsbeispiele, und das Speichermedium, das den Programmcode speichert, bildet die Erfindung. Als das Speichermedium zum Bereitstellen des Programmcodes kann beispielsweise eine Diskette, eine Festplatte, eine optische Platte, eine magnetooptische Platte, eine CD-ROM, ein Magnetband, eine nicht-flüchtige Speicherkarte, ein ROM und dergleichen verwendet werden.
- Die Erfindung kann ebenso durch Bereitstellen des Speichermediums, das den Programmcode aufzeichnet, für einen Computer, und durch Ausführen eines Teils oder der Gesamtheit der tatsächlichen Prozesse, die durch ein auf dem Computer laufendes BS ausgeführt sind, gelöst werden. Außerdem können die Funktionen der vorstehend beschriebenen Ausführungsbeispiele durch einen Teil oder die Gesamtheit von tatsächlichen Verarbeitungsvorgängen, die durch eine CPU oder dergleichen ausgeführt sind, implementiert werden, die in einer Funktionserweiterungsplatine oder einer Funktionserweiterungseinheit angeordnet ist, die in den Computer eingefügt ist oder mit diesem verbunden wird, nachdem der aus dem Speichermedium ausgelesene Programmcode in einen Speicher der Erweiterungsplatine oder -einheit geschrieben ist. Wird die Erfindung bei dem Speichermedium angewendet, dann speichert das Speichermedium einen Programmcode, der dem gemäß
3 gezeigten Ablaufdiagramm entspricht. - Da viele offensichtlich sehr unterschiedliche Ausführungsbeispiele der Erfindung ausgeführt werden können, ohne von deren Schutzbereich abzuweichen, ist zu verstehen, dass die Erfindung nicht durch ihre spezifischen Ausführungsbeispiele beschränkt ist, sondern ausschließlich, wie in den beiliegenden Patentansprüchen definiert.
Claims (40)
- Client-/Server-Spracherkennungssystem zum Erkennen einer Spracheingabe bei einem Client (
100 ) durch einen Server (200 ), wobei der Client (100 ) umfasst: eine Spracheingabeeinrichtung (121 ,123 ) zum Eingeben von Sprache, eine Benutzerwörterbuchhalteeinrichtung zum Halten eines Benutzerwörterbuchs (124a ), das durch Registrieren von durch den Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, und eine Übertragungseinrichtung (122 ) zum Übertragen von durch die Spracheingabeeinrichtung (121 ) eingegebenen Sprachdaten (124b ), von Wörterbuchverwaltungsinformationen (124c ), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und des Benutzerwörterbuchs (124a ) zu dem Server (200 ), und wobei der Server (200 ) umfasst: eine Erkennungswörterbuchhalteeinrichtung zum Halten einer Vielzahl von Arten von Erkennungswörterbüchern (225 ), die für jeweilige Erkennungsfelder ausgebildet sind, eine Bestimmungseinrichtung (223 ) zum Bestimmen von einem oder mehreren Erkennungswörterbüchern (225 ), die den von dem Client (100 ) empfangenen Wörterbuchverwaltungsinformationen (124c ) entsprechen, aus der Vielzahl von Arten von Erkennungswörterbüchern (225 ) und dem von dem Client (100 ) empfangenen Benutzerwörterbuch (124a ), und eine Erkennungseinrichtung (224 ) zum Erkennen der Sprachdaten (124b ) unter Verwendung zumindest des durch die Bestimmungseinrichtung (223 ) bestimmten Erkennungswörterbuchs (225 ). - System gemäß Anspruch 1, wobei die Erkennungseinrichtung (
224 ) zum Erkennen der Sprachdaten (124b ) unter Verwendung des durch die Bestimmungseinrichtung (223 ) bestimmten Erkennungswörterbuchs (225 ) und des von dem Client (100 ) empfangenen Benutzerwörterbuchs (124a ) betreibbar ist. - System gemäß Anspruch 1 oder 2, wobei die Spracheingabeeinrichtung (
121 ,123 ) eine Anzeigeeinrichtung (123 ) zum Anzeigen einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (124c ) eine Eingabenmaskenkennung darstellen, die eine Art der Eingabemaske angibt. - System gemäß einem der Ansprüche 1 bis 3, wobei die Wörterbuchverwaltungsinformationen (
124c ) Informationen enthalten, die angeben, ob das Benutzerwörterbuch (124a ) bei einer Erkennung der Sprachdaten (124b ) zu verwenden ist. - System gemäß einem der vorstehenden Ansprüche, wobei das Benutzerwörterbuch (
124a ) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist. - System gemäß Anspruch 3, wobei das Benutzerwörterbuch (
124a ) ebenso durch Speichern von zumindest einer Eingabemaskekennung und den Zielerkennungswörtern in Entsprechung miteinander ausgebildet ist. - System gemäß einem der vorstehenden Ansprüche, wobei das Benutzerwörterbuch (
124a ) ebenso durch Speichern von zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet ist. - System gemäß einem der vorstehenden Ansprüche, wobei die Sprachdaten (
124b ) durch Codierung jener Sprachdaten erhaltene Daten sind. - Verfahren zum Steuern eines Client-/Server-Spracherkennungssystems zum Erkennen einer Spracheingabe bei einem Client (
100 ) durch einen Server (200 ), mit: einem Spracheingabeschritt des Eingehens von Sprache, und einem Übertragungsschritt des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (124b ), von Wörterbuchverwaltungsinformationen (124c ), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und eines in dem Client (100 ) gehaltenen Benutzerwörterbuchs (124a ), das durch ein Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server, einem Bestimmungsschritt des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225 ), die den von dem Client (100 ) empfangenen Wörterbuchverwaltungsinformationen entsprechen, aus einer Vielzahl von Arten von in dem Server (200 ) gehaltenen Erkennungswörterbüchern (225 ), die für jeweilige Erkennungsfelder ausgebildet sind, und dem von dem Client (100 ) empfangenen Benutzerwörterbuch (124a ), und einem Erkennungsschritt des Erkennens der Sprachdaten (124b ) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225 ). - Verfahren gemäß Anspruch 9, wobei der Erkennungsschritt einen Schritt des Erkennens der Sprachdaten (
124b ) unter Verwendung des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225 ) und des von dem Client (100 ) empfangenen Benutzerwörterbuchs (124a ) enthält. - Verfahren gemäß Anspruch 9 oder 10, wobei der Spracheingabeschritt einen Anzeigeschritt des Anzeigens einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (
124c ) eine Eingabemaskenkennung darstellen, die eine Art von Eingabemaske angibt. - Verfahren gemäß einem der Ansprüche 9 bis 11, wobei die Wörterbuchverwaltungsinformationen (
124c ) Informationen enthalten, die angeben, ob das Benutzerwörterbuch (124a ) bei einer Erkennung der Sprachdaten (124b ) zu verwenden ist. - Verfahren gemäß einem der Ansprüche 9 bis 12, wobei das Benutzerwörterbuch (
124a ) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet wird. - Verfahren gemäß Anspruch 11, wobei das Benutzerwörterbuch (
124a ) ebenso durch Speichern von zumindest einer Eingabemaskenkennung und der Zielerkennungswörter in Entsprechung miteinander ausgebildet wird. - Verfahren gemäß einem der Ansprüche 9 bis 14, wobei das Benutzerwörterbuch (
124a ) ebenso durch Speichern von zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet wird. - Verfahren gemäß einem der Ansprüche 9 bis 15, wobei die Sprachdaten (
124b ) durch Codieren jener Sprachdaten erhaltene Daten sind. - Computerlesbarer Speicher, der einen Programmcode zur Steuerung eines Client-/Server-Spracherkennungssystems zum Erkennen einer Spracheingabe bei einem Client durch einen Server speichert, mit: einem Programmcode eines Spracheingabeschritts des Eingebens von Sprache, einem Programmcode eines Übertragungsschritts des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (
124b ), von Wörterbuchverwaltungsinformationen (124c ), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und eines in dem Client (100 ) gehaltenen Benutzerwörterbuchs (124a ), das durch Registrieren von durch den Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server (200 ), einem Programmcode eines Bestimmungsschritts des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225 ), die den von dem Client (100 ) empfangenen Wörterbuchverwaltungsinformationen (124c ) entsprechen, aus einer Vielzahl von Arten von in dem Server (200 ) gehaltenen Erkennungswörterbüchern (225 ), die für jewei lige Erkennungsfelder ausgebildet sind, und dem von dem Client (100 ) empfangenen Benutzerwörterbuch (124a ), und einem Programmcode eines Erkennungsschritts des Erkennens der Sprachdaten (124b ) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225 ). - Spracherkennungsserver (
200 ) zum Erkennen einer Spracheingabe bei einem Client (100 ) und zum Senden eines Erkennungsergebnisses zu dem Client (100 ), mit: einer Empfangseinrichtung zum Empfangen von dem Client (100 ) von Sprachdaten (124b ), von Wörterbuchverwaltungsinformationen (124c ), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines Benutzerwörterbuchs (124a ), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, einer Erkennungswörterbuchhalteeinrichtung zum Halten einer Vielzahl von Arten von für jeweilige Erkennungsfelder ausgebildeten Erkennungswörterbüchern (225 ), einer Bestimmungseinrichtung (223 ) zum Bestimmen von einem oder mehreren Erkennungswörterbüchern (225 ), die den von dem Client (100 ) empfangenen Wörterbuchverwaltungsinformationen (124c ) entsprechen, aus der Vielzahl von Arten von Erkennungswörterbüchern (225 ) und dem von dem Client (100 ) empfangenen Benutzerwörterbuch (124a ), und einer Erkennungseinrichtung (224 ) zum Erkennen der Sprachdaten unter Verwendung zumindest des durch die Bestimmungseinrichtung (223 ) bestimmten Erkennungswörterbuchs (225 ). - Server gemäß Anspruch 18, wobei die Erkennungseinrichtung (
224 ) zum Erkennen der Sprachdaten (124b ) unter Verwendung des durch die Bestimmungseinrichtung (223 ) bestimmten Erkennungswörterbuchs (225 ) und des von dem Client (100 ) empfangenen Benutzerwörterbuchs (124a ) betreibbar ist. - Server gemäß Anspruch 18 oder 19, wobei die Sprachdaten (
124b ) durch Codieren jener Sprachdaten erhaltene Daten sind. - Spracherkennungsclient (
100 ) zum Senden von durch einen Server (200 ) zu erkennender Eingabesprache und zum Empfangen eines Erkennungsergebnisses jener Sprache, mit: einer Spracheingabeeinrichtung (121 ,123 ) zum Eingeben von Sprache, einer Benutzerwörterbuchhalteeinrichtung zum Halten eines Benutzerwörterbuchs (124a ), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, und einer Übertragungseinrichtung (122 ) zum Übertragen von durch die Spracheingabeeinrichtung eingegebenen Sprachdaten (124b ), von Wörterbuchverwaltungsinformationen (124c ), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und des Benutzerwörterbuchs (124a ) zu dem Server (200 ). - Client gemäß Anspruch 21, wobei die Spracheingabeeinrichtung (
121 ,123 ) eine Anzeigeeinrichtung (123 ) zum Anzeigen einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (124c ) eine Eingabemaskenkennung darstellen, die eine Art von Eingabemaske angibt. - Client gemäß Anspruch 21 oder 22, wobei die Wörterbuchverwaltungsinformationen (
124c ) Informationen enthal ten, die angeben, ob das Benutzerwörterbuch (124a ) bei einer Erkennung der Sprachdaten zu verwenden ist. - Client gemäß einem der Ansprüche 21 bis 23, wobei das Benutzerwörterbuch (
124a ) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist. - Client gemäß Anspruch 22, wobei das Benutzerwörterbuch (
124a ) ebenso durch Speichern zumindest einer Eingabemaskenkennung und der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist. - Client gemäß einem der Ansprüche 21 bis 25, wobei das Benutzerwörterbuch (
124a ) ebenso durch Speichern zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet ist. - Client gemäß einem der Ansprüche 21 bis 25, wobei die Sprachdaten (
124b ) durch Codieren jener Sprachdaten erhaltene Daten sind. - Verfahren zum Steuern eines Spracherkennungsservers (
200 ) zum Erkennen einer Spracheingabe bei einem Client (100 ) und zum Senden eines Erkennungsergebnisses zu dem Client (100 ), mit: einem Empfangsschritt des Empfangens von dem Client von Sprachdaten (124b ), von Wörterbuchverwaltungsinformationen (124c ), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines Benutzerwörterbuchs (124a ), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, einem Bestimmungsschritt des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225 ), die den von dem Client (100 ) empfangenen Wörterbuchverwaltungsinformationen (124c ) entsprechen, aus einer Vielzahl von Arten von in dem Server (200 ) gehaltenen Erkennungswörterbüchern (225 ), die für jeweilige Erkennungsfelder ausgebildet sind, und dem von dem Client (100 ) empfangenen Benutzerwörterbuch (124a ), und einem Erkennungsschritt des Erkennens der Sprachdaten (124b ) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225 ). - Verfahren gemäß Anspruch 28, wobei der Erkennungsschritt einen Schritt des Erkennens der Sprachdaten (
124b ) unter Verwendung des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225 ) und des von dem Client (100 ) empfangenen Benutzerwörterbuchs (124a ) enthält. - Verfahren gemäß Anspruch 28 oder 29, wobei die Sprachdaten (
124b ) durch Codieren jener Sprachdaten erhaltene Daten sind. - Verfahren zum Steuern eines Spracherkennungsclients (
100 ) zum Senden von durch einen Server (200 ) zu erkennender Eingabesprache und zum Empfangen eines Erkennungsergebnisses von jener Sprache, mit: einem Spracheingabeschritt des Eingebens von Sprache, und einem Übertragungsschritt des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (124b ), von Wörterbuchverwaltungsinformationen (124c ), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines in dem Client (100 ) gehaltenen Benutzer wörterbuchs (124a ), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server (200 ). - Verfahren gemäß Anspruch 31, wobei der Spracheingabeschritt einen Anzeigeschritt des Anzeigens einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (
124c ) eine Eingabemaskenkennung darstellen, die eine Art von Eingabemaske angibt. - Verfahren gemäß Anspruch 31 oder 32, wobei die Wörterbuchverwaltungsinformationen (
124c ) Informationen enthalten, die angeben, ob das Benutzerwörterbuch (124a ) bei einer Erkennung der Sprachdaten (124b ) zu verwenden ist. - Verfahren gemäß einem der Ansprüche 31 bis 33, wobei das Benutzerwörterbuch (
124a ) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist. - Verfahren gemäß Anspruch 32, wobei das Benutzerwörterbuch (
124a ) ebenso durch Speichern zumindest einer Eingabemaskenkennung und der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist. - Verfahren gemäß einem der Ansprüche 31 bis 35, wobei das Benutzerwörterbuch (
124a ) ebenso durch Speichern zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet ist. - Verfahren gemäß einem der Ansprüche 31 bis 36, wobei die Sprachdaten (
124b ) durch Codieren jener Sprachdaten erhaltene Daten sind. - Computerlesbarer Speicher, der einen Programmcode zur Steuerung eines Spracherkennungsservers (
200 ) zum Erkennen einer Spracheingabe bei einem Client (100 ) und zum Senden eines Erkennungsergebnisses zu dem Client (100 ) speichert, mit: einem Programmcode eines Empfangsschritts des Empfangens von dem Client (100 ) von Sprachdaten (124b ), von Wörterbuchverwaltungsinformationen (124c ), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines Benutzerwörterbuchs (124a ), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, einem Programmcode eines Bestimmungsschritts des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225 ), die den von dem Client (100 ) empfangenen Wörterbuchverwaltungsinformationen (124c ) entsprechen, aus einer Vielzahl von Arten von in dem Server (200 ) gehaltenen Erkennungswörterbüchern (225 ), die für jeweilige Erkennungsfelder ausgebildet sind, und dem von dem Client (100 ) empfangenen Benutzerwörterbuch (124a ), und einem Programmcode eines Erkennungsschritts des Erkennens der Sprachdaten (124b ) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225 ). - Computerlesbarer Speicher, der einen Programmcode zur Steuerung eines Spracherkennungsclients (
100 ) zum Senden einer durch einen Server (200 ) zu erkennenden Eingabesprache und zum Empfangen eines Erkennungsergebnisses jener Sprache speichert, mit: einem Programmcode eines Spracheingabeschritts des Eingebens von Sprache, und einem Programmcode eines Übertragungsschritts des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (124b ), von Wörterbuchverwaltungsinformationen (124c ), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines in dem Client (100 ) gehaltenen Benutzerwörterbuchs (124a ), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server (200 ). - Prozessorimplementierbares Anweisungsprodukt, das eine programmierbare Computervorrichtung veranlasst, alle Schritte des Verfahrens gemäß einem der Ansprüche 28 bis 37 auszuführen, wenn das Anweisungsprodukt auf der programmierbaren Computervorrichtung läuft.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000360203 | 2000-11-27 | ||
JP2000360203A JP3581648B2 (ja) | 2000-11-27 | 2000-11-27 | 音声認識システム、情報処理装置及びそれらの制御方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60126462D1 DE60126462D1 (de) | 2007-03-22 |
DE60126462T2 true DE60126462T2 (de) | 2007-11-15 |
Family
ID=18831838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60126462T Expired - Lifetime DE60126462T2 (de) | 2000-11-27 | 2001-11-27 | Client/Server basiertes Spracherkennungssystem |
Country Status (7)
Country | Link |
---|---|
US (1) | US7099824B2 (de) |
EP (1) | EP1209662B1 (de) |
JP (1) | JP3581648B2 (de) |
KR (1) | KR100679113B1 (de) |
CN (1) | CN1187733C (de) |
AT (1) | ATE353463T1 (de) |
DE (1) | DE60126462T2 (de) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US7409349B2 (en) | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7610547B2 (en) | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7366673B2 (en) | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US8229753B2 (en) | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
JP3542578B2 (ja) * | 2001-11-22 | 2004-07-14 | キヤノン株式会社 | 音声認識装置及びその方法、プログラム |
JP2004325688A (ja) * | 2003-04-23 | 2004-11-18 | Toyota Motor Corp | 音声認識システム |
US7260535B2 (en) * | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
DE10329546A1 (de) * | 2003-06-30 | 2005-01-20 | Daimlerchrysler Ag | Lexikon gesteuerter Teilsprachmodell-Mechanismus für die automatische Spracherkennung |
US8311835B2 (en) | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
JP2005128076A (ja) * | 2003-10-21 | 2005-05-19 | Ntt Docomo Inc | 端末からの音声データを認識する音声認識システム及び方法 |
US20050119892A1 (en) * | 2003-12-02 | 2005-06-02 | International Business Machines Corporation | Method and arrangement for managing grammar options in a graphical callflow builder |
US8160883B2 (en) | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US20060095266A1 (en) * | 2004-11-01 | 2006-05-04 | Mca Nulty Megan | Roaming user profiles for speech recognition |
US8275618B2 (en) * | 2004-12-22 | 2012-09-25 | Nuance Communications, Inc. | Mobile dictation correction user interface |
CN103050117B (zh) * | 2005-10-27 | 2015-10-28 | 纽昂斯奥地利通讯有限公司 | 用于处理口述信息的方法和系统 |
US7774202B2 (en) * | 2006-06-12 | 2010-08-10 | Lockheed Martin Corporation | Speech activated control system and related methods |
JPWO2008007688A1 (ja) * | 2006-07-13 | 2009-12-10 | 日本電気株式会社 | 音声認識機能を有する通話端末、その音声認識辞書の更新支援装置及び更新方法 |
US8214208B2 (en) * | 2006-09-28 | 2012-07-03 | Reqall, Inc. | Method and system for sharing portable voice profiles |
KR100913130B1 (ko) * | 2006-09-29 | 2009-08-19 | 한국전자통신연구원 | 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치 |
JP4859642B2 (ja) * | 2006-11-30 | 2012-01-25 | 富士通株式会社 | 音声情報管理装置 |
JP5233989B2 (ja) * | 2007-03-14 | 2013-07-10 | 日本電気株式会社 | 音声認識システム、音声認識方法、および音声認識処理プログラム |
TWI336048B (en) * | 2007-05-11 | 2011-01-11 | Delta Electronics Inc | Input system for mobile search and method therefor |
CN101079885B (zh) * | 2007-06-26 | 2010-09-01 | 中兴通讯股份有限公司 | 一种提供自动语音识别统一开发平台的系统和方法 |
JP4749438B2 (ja) * | 2008-03-28 | 2011-08-17 | 三菱電機インフォメーションシステムズ株式会社 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
JP4749437B2 (ja) * | 2008-03-28 | 2011-08-17 | 三菱電機インフォメーションシステムズ株式会社 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
JP4815463B2 (ja) * | 2008-03-28 | 2011-11-16 | 三菱電機インフォメーションシステムズ株式会社 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
US8019608B2 (en) * | 2008-08-29 | 2011-09-13 | Multimodal Technologies, Inc. | Distributed speech recognition using one way communication |
JP5471106B2 (ja) * | 2009-07-16 | 2014-04-16 | 独立行政法人情報通信研究機構 | 音声翻訳システム、辞書サーバ装置、およびプログラム |
WO2011093025A1 (ja) * | 2010-01-29 | 2011-08-04 | 日本電気株式会社 | 入力支援システム、方法、およびプログラム |
US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
KR20130016644A (ko) * | 2011-08-08 | 2013-02-18 | 삼성전자주식회사 | 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 |
WO2014055076A1 (en) | 2012-10-04 | 2014-04-10 | Nuance Communications, Inc. | Improved hybrid controller for asr |
CN103839549A (zh) * | 2012-11-22 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 一种语音指令控制方法及系统 |
CN105009206B (zh) * | 2013-03-06 | 2018-02-09 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
JP6416752B2 (ja) * | 2013-04-19 | 2018-10-31 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 家電機器の制御方法、家電機器制御システム、及びゲートウェイ |
CN104217720B (zh) * | 2013-05-29 | 2019-03-01 | 腾讯科技(深圳)有限公司 | 一种基于短连接实现通讯录语音识别的方法、系统和装置 |
CN103474063B (zh) * | 2013-08-06 | 2015-12-23 | 福建华映显示科技有限公司 | 语音辨识系统以及方法 |
CN105023575B (zh) * | 2014-04-30 | 2019-09-17 | 中兴通讯股份有限公司 | 语音识别方法、装置和系统 |
KR102325724B1 (ko) * | 2015-02-28 | 2021-11-15 | 삼성전자주식회사 | 다수의 기기에서 텍스트 데이터 동기화 |
US10049666B2 (en) * | 2016-01-06 | 2018-08-14 | Google Llc | Voice recognition system |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
JP6883471B2 (ja) * | 2017-05-11 | 2021-06-09 | オリンパス株式会社 | 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置 |
KR20190096853A (ko) * | 2019-07-30 | 2019-08-20 | 엘지전자 주식회사 | 음성 처리 방법 및 음성 처리 장치 |
JP7463690B2 (ja) * | 2019-10-31 | 2024-04-09 | 株式会社リコー | サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体 |
TWI752474B (zh) * | 2020-04-22 | 2022-01-11 | 莊連豪 | 無障礙智能語音系統及其控制方法 |
CN112100987A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 一种多源数据字典的转码方法及装置 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0695683A (ja) * | 1992-09-10 | 1994-04-08 | Fujitsu Ltd | 音声認識装置 |
JP3725566B2 (ja) | 1992-12-28 | 2005-12-14 | 株式会社東芝 | 音声認識インターフェース |
US5632002A (en) * | 1992-12-28 | 1997-05-20 | Kabushiki Kaisha Toshiba | Speech recognition interface system suitable for window systems and speech mail systems |
JP3267064B2 (ja) * | 1994-09-20 | 2002-03-18 | 株式会社日立製作所 | パターン情報処理装置 |
TW274135B (de) | 1994-09-14 | 1996-04-11 | Hitachi Seisakusyo Kk | |
JPH08180141A (ja) * | 1994-12-20 | 1996-07-12 | Matsushita Electric Ind Co Ltd | 文字認識システム |
JPH08272789A (ja) | 1995-03-30 | 1996-10-18 | Mitsubishi Electric Corp | 言語情報変換装置 |
US5774628A (en) | 1995-04-10 | 1998-06-30 | Texas Instruments Incorporated | Speaker-independent dynamic vocabulary and grammar in speech recognition |
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
KR19990009682A (ko) * | 1997-07-11 | 1999-02-05 | 김유승 | 화자인식 원격 클라이언트 계정 검증 시스템 및 화자검증방법 |
EP0954855B1 (de) * | 1997-11-14 | 2003-05-21 | Koninklijke Philips Electronics N.V. | Verfahren und system zur gemeinsamen nutzung von hardware in einem sprachbasierten kommunikationssystem mit sprachverarbeitung auf verschiedenen relativen komplexitätsstufen |
US6195641B1 (en) * | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
JPH11308270A (ja) | 1998-04-22 | 1999-11-05 | Olympus Optical Co Ltd | 通信システム及びそれに用いられる端末装置 |
JP2000075887A (ja) | 1998-08-31 | 2000-03-14 | Sony Corp | パターン認識装置、方法及びシステム |
JP2000206983A (ja) | 1999-01-19 | 2000-07-28 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
KR100647420B1 (ko) * | 1999-12-13 | 2006-11-17 | 주식회사 케이티 | 클라이언트/서버 모델을 활용한 음성인식 시스템 및 그를 이용한 음성인식 서비스 제공방법 |
CN1315721A (zh) * | 2000-03-23 | 2001-10-03 | 韦尔博泰克有限公司 | 客户服务器语音信息传送系统与方法 |
-
2000
- 2000-11-27 JP JP2000360203A patent/JP3581648B2/ja not_active Expired - Fee Related
-
2001
- 2001-11-26 KR KR1020010073679A patent/KR100679113B1/ko not_active IP Right Cessation
- 2001-11-27 EP EP01309945A patent/EP1209662B1/de not_active Expired - Lifetime
- 2001-11-27 CN CNB011394773A patent/CN1187733C/zh not_active Expired - Fee Related
- 2001-11-27 US US09/993,570 patent/US7099824B2/en not_active Expired - Fee Related
- 2001-11-27 DE DE60126462T patent/DE60126462T2/de not_active Expired - Lifetime
- 2001-11-27 AT AT01309945T patent/ATE353463T1/de not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
JP3581648B2 (ja) | 2004-10-27 |
US20020065652A1 (en) | 2002-05-30 |
ATE353463T1 (de) | 2007-02-15 |
KR100679113B1 (ko) | 2007-02-07 |
CN1356688A (zh) | 2002-07-03 |
US7099824B2 (en) | 2006-08-29 |
EP1209662B1 (de) | 2007-02-07 |
DE60126462D1 (de) | 2007-03-22 |
KR20020041296A (ko) | 2002-06-01 |
JP2002162988A (ja) | 2002-06-07 |
EP1209662A3 (de) | 2004-01-28 |
EP1209662A2 (de) | 2002-05-29 |
CN1187733C (zh) | 2005-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60126462T2 (de) | Client/Server basiertes Spracherkennungssystem | |
DE69511786T2 (de) | Zeichenerkennungsgerät und Verfahren zur Steuerung desselben | |
DE60219048T2 (de) | Sektionsextrahierungswerkzeug für pdf-dokumente | |
DE69528738T2 (de) | Systeme und Verfahren zur Herstellung und Auffrischung zusammengesetzter Dokumente | |
DE69224953T2 (de) | Spracherkennung | |
DE69734562T2 (de) | Informationsverarbeitungvorrichtung und Steuerungsverfahren dafür | |
DE3382691T2 (de) | Bildschirmverwaltungssystem. | |
EP0855062B1 (de) | Informationssystem und verfahren zur speicherung von daten in einem informationssystem | |
DE19705955A1 (de) | Verfahren zum Generieren einer Implementierung eines Workflow-Prozessmodells in einer Objektumgebung | |
DE10308550A1 (de) | System und Verfahren zur automatischen Daten-Prüfung und -Korrektur | |
DE69718085T2 (de) | Kompression von strukturierten Daten | |
DE60202847T2 (de) | Abfragesystem in natürlicher sprache für den zugriff auf ein informationssystem | |
DE10034841A1 (de) | Automatische Jobbetriebsmittel-Verwendung und -Wiedergewinnung | |
DE112009005114T5 (de) | Einrichtungssuchvorrichtung | |
DE60123153T2 (de) | Sprachgesteuertes Browsersystem | |
DE112020000003T5 (de) | Informationsbereitstellungssystem und Informationsbereitstellungsverfahren | |
DE69333762T2 (de) | Spracherkennungssystem | |
DE10127559A1 (de) | Benutzergruppenspezifisches Musterverarbeitungssystem | |
DE10120867B4 (de) | Computersystem, Verfahren zum Betrieb eines Computersystems, sowie Maschinenlesbare Speichervorrichtung | |
DE19849855C1 (de) | Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem | |
DE69708335T2 (de) | Bildverarbeitungssystem und -verfahren unter verwendung von personifizierungstechniken | |
DE10056825C2 (de) | Verfahren, Vorrichtung und Computerprogramm zum Erzeugen eines Zufallstestcodes | |
DE60203117T2 (de) | Signalisierung von ereignissen in arbeitsfluss-verwaltungssystemen | |
WO2000054188A2 (de) | Verfahren zur automatischen wiedergewinnung von engineeringdaten aus anlagen | |
DE19814348A1 (de) | System und Verfahren zur Kommunikation mit verschiedenen elektronischen Archivsystemen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8381 | Inventor (new situation) |
Inventor name: KUSHIDA, AKIHIRO, OHTA, TOKYO, JP Inventor name: KOSAKA, TETSUO, OHTA, TOKYO, JP |
|
8364 | No opposition during term of opposition |