DE60126462T2 - Client/Server basiertes Spracherkennungssystem - Google Patents

Client/Server basiertes Spracherkennungssystem Download PDF

Info

Publication number
DE60126462T2
DE60126462T2 DE60126462T DE60126462T DE60126462T2 DE 60126462 T2 DE60126462 T2 DE 60126462T2 DE 60126462 T DE60126462 T DE 60126462T DE 60126462 T DE60126462 T DE 60126462T DE 60126462 T2 DE60126462 T2 DE 60126462T2
Authority
DE
Germany
Prior art keywords
recognition
dictionary
client
speech
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60126462T
Other languages
English (en)
Other versions
DE60126462D1 (de
Inventor
Akihiro Ohta Kushida
Tetsuo Ohta Kosaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of DE60126462D1 publication Critical patent/DE60126462D1/de
Application granted granted Critical
Publication of DE60126462T2 publication Critical patent/DE60126462T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer And Data Communications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf ein Client-Server-Spracherkennungssystem zum Erkennen einer Spracheingabe bei einem Client durch einen Server, einen Spracherkennungs-Server, einen Spracherkennungs-Client, deren Steuerverfahren und einen computerlesbaren Speicher.
  • HINTERGRUND DER ERFINDUNG
  • In den vergangenen Jahren wurde Sprache als eine Eingabeschnittstelle zusätzlich zu einer Tastatur, Maus und dergleichen verwendet.
  • Die Erkennungsrate der eine Eingabesprache erkennenden Spracherkennung verringert sich jedoch und erfordert eine längere Verarbeitungszeit, wenn sich die Anzahl von einer Spracherkennung zu unterziehenden Erkennungswörtern größer wird. Aus diesem Grund wird bei einem gegenwärtigen Verfahren eine Vielzahl von Erkennungswörterbüchern oder -lexika ausgebildet, die eine Spracherkennung zu durchlaufende Erkennungswörter (z.B. Aussprachen und Schreibweisen) registrieren und selektiv verwendet werden (eine Vielzahl von Erkennungswörterbüchern kann zum gleichen Zeitpunkt verwendet werden).
  • Ebenso können nicht registrierte Worte nicht erkannt werden. Als ein Verfahren zum Lösen dieses Problems kann ein Benutzerwörterbuch oder -lexikon (das durch den Benutzer ausgebildet ist, um eine Spracherkennung zu durchlaufende Erkennungswörter zu registrieren) verwendet werden.
  • Demgegenüber wurde ein Client-Server-Spracherkennungssystem studiert, um eine Spracherkennung auf einem Endgerät mit unzureichenden Ressourcen zu implementieren.
  • Diese drei Techniken sind dem Fachmann bekannt, aber ein System, das diese drei Techniken kombiniert, wurde noch nicht realisiert.
  • Die WO-A-99/26233 offenbart ein Client-Server-Spracherkennungssystem, in welchem durch einen Client erzeugte Sprachdaten zu einem Spracherkennungsserver übertragen werden, in welchem die Sprache erkannt und die erkannte Sprache zu dem Client zurück gegeben wird.
  • KURZFASSUNG DER ERFINDUNG
  • Gemäß einer Ausgestaltung stellt die Erfindung ein Client-/Server-Spracherkennungssystem zum Erkennen einer Spracheingabe bei einem Client durch einen Server bereit,
    wobei der Client umfasst:
    eine Spracheingabeeinrichtung zum Eingeben von Sprache,
    eine Benutzerwörterbuchhalteeinrichtung zum Halten eines Benutzerwörterbuchs, das durch Registrieren von durch den Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, und
    eine Übertragungseinrichtung zum Übertragen von durch die Spracheingabeeinrichtung eingegebenen Sprachda ten, von Wörterbuchverwaltungsinformationen, die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und des Benutzerwörterbuchs zu dem Server, und
    wobei der Server umfasst:
    eine Erkennungswörterbuchhalteeinrichtung zum Halten einer Vielzahl von Arten von Erkennungswörterbüchern, die für jeweilige Erkennungsfelder ausgebildet sind,
    eine Bestimmungseinrichtung zum Bestimmen von einem oder mehreren Erkennungswörterbüchern, die den von dem Client empfangenen Wörterbuchverwaltungsinformationen entsprechen, aus der Vielzahl von Arten von Erkennungswörterbüchern und dem von dem Client empfangenen Benutzerwörterbuch, und
    eine Erkennungseinrichtung zum Erkennen der Sprachdaten unter Verwendung zumindest des durch die Bestimmungseinrichtung bestimmten Erkennungswörterbuchs.
  • Weitere Merkmale und Vorteile der Erfindung werden aus der nachstehenden Beschreibung in Verbindung mit den beiliegenden Zeichnungen offensichtlich, in welchen gleiche Bezugszeichen die gleichen oder ähnliche Abschnitte durch die Figuren hindurch bezeichnen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Es zeigen:
  • 1 eine Blockdarstellung der Hardware-Anordnung eines Spracherkennungssystems des ersten Ausführungsbeispiels,
  • 2 eine Blockdarstellung der Funktionsanordnung des Spracherkennungssystems des ersten Ausführungsbeispiels,
  • 3 den Aufbau eines Benutzerwörterbuchs des ersten Ausführungsbeispiels,
  • 4 ein Spracheingabefenster des ersten Ausführungsbeispiels,
  • 5 eine Kennungstabelle des ersten Ausführungsbeispiels,
  • 6 ein Ablaufdiagramm des Prozesses, der durch das Spracherkennungssystem des ersten Ausführungsbeispiels ausgeführt wird,
  • 7 den Aufbau eines Benutzerwörterbuchs, dem Eingabemaskenkennungen angehängt sind, gemäß dem dritten Ausführungsbeispiel, und
  • 8 den Aufbau eines Benutzerwörterbuchs, dem Erkennungswörterbuchkennungen angehängt sind, gemäß dem dritten Ausführungsbeispiel.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung sind nachstehend ausführlich unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben.
  • [Erstes Ausführungsbeispiel]
  • 1 zeigt die Hardware-Anordnung eines Spracherkennungssystems des ersten Ausführungsbeispiels.
  • Eine CPU 101 steuert systematisch einen gesamten Client 100. Die CPU 101 lädt in einem ROM 102 gespeicherte Programme in einen RAM 103 und führt verschiedene Prozesse auf der Grundlage der geladenen Programme aus. Der ROM 102 speichert verschiedene Programme von durch die CPU 101 auszuführenden Prozessen. Der RAM 103 stellt einen Speicherbereich bereit, der zum Ausführen von verschiedenen in dem ROM 102 gespeicherten Programmen erforderlich ist.
  • Eine Sekundärspeichereinrichtung 104 speichert ein BS und verschiedene Programme. Wird der Client 100 nicht unter Verwendung einer Vielzweckvorrichtung implementiert, wie einem Personal-Computer oder dergleichen, sondern einer spezialisierten Vorrichtung, dann kann der ROM 102 das BS und verschiedene Programme speichern. Durch Laden der gespeicherten Programme in den RAM 103 kann die CPU 101 Prozesse ausführen. Es kann als die Sekundärspeichereinrichtung 104 ein Festplattengerät, ein Diskettengerät, eine CD-ROM oder dergleichen verwendet werden. Das heißt, Speichermedien sind nicht im Besonderen eingeschränkt.
  • Eine Netzwerkschnittstelle 105 ist mit einer Netzwerkschnittstelle 205 eines Servers 200 verbunden.
  • Eine Eingabeeinrichtung 106 umfasst eine Maus, eine Tastatur, ein Mikrofon und dergleichen, um eine Eingabe von verschiedenen Anweisungen an durch die CPU 101 auszuführende Prozesse zu ermöglichen, und kann durch gleichzeitiges Verbinden dieser Vielzahl von Geräten verwendet werden. Eine Ausgabeeinrichtung 107 umfasst eine Anzeige (CRT, LCD oder dergleichen) und zeigt durch die Eingabeeinrichtung 106 eingegebene Informationen und Anzeigefenster an, die durch verschiedene durch die CPU 101 ausgeführte Prozesse gesteuert sind. Ein Bus 108 verbindet verschiedene Aufbaukomponenten des Clients 100 untereinander.
  • Eine CPU 201 steuert systematisch den gesamten Server 200. Die CPU 201 lädt in einem ROM 202 gespeicherte Programme in einen RAM 203 und führt verschiedene Prozesse auf der Grundlage der geladenen Programme aus. Der ROM 202 speichert verschiedene Programme von durch die CPU 201 auszuführenden Prozessen. Der RAM 203 stellt einen Speicherbereich bereit, der zum Ausführen von verschiedenen in dem ROM 202 gespeicherten Programmen erforderlich ist.
  • Eine Sekundärspeichereinrichtung 204 speichert ein BS und verschiedene Programme. Ist der Server 200 nicht unter Verwendung einer vielseitigen Vorrichtung implementiert, wie einem Personal-Computer oder dergleichen, sondern einer spezialisierten Vorrichtung, dann kann der ROM 202 das BS und verschiedene Programme speichern. Durch Laden der gespeicherten Programme in den RAM 203 kann die CPU 201 Prozesse ausführen. Als die Sekundärspeichereinrichtung 204 kann ein Festplattengerät, ein Diskettengerät, eine CD-ROM oder dergleichen verwendet werden. Das heißt, Speichermedien sind nicht im Besonderen eingeschränkt.
  • Die Netzwerkschnittstelle 205 ist mit der Netzwerkschnittstelle 105 des Clients 100 verbunden. Ein Bus 206 hat verschiedene Aufbaukomponenten des Servers 200 untereinander.
  • Die Funktionsanordnung des Spracherkennungssystems des ersten Ausführungsbeispiels ist nachstehend unter Bezugnahme auf 2 beschrieben.
  • 2 zeigt eine Blockdarstellung der Funktionsanordnung des Spracherkennungssystems des Ausführungsbeispiels.
  • In dem Client 100 gibt ein Spracheingabemodul 121 Sprache ein, die durch den Benutzer über ein Mikrofon (Eingabeeinrichtung 106) geäußert ist, und führt eine A/D-Umwandlung bei Eingabesprachdaten (Spracherkennungsdaten) durch, die eine Spracherkennung zu durchlaufen haben. Ein Kommunikationsmodul 122 sendet ein Benutzerwörterbuch 124a, Spracherkennungsdaten 124b, Wörterbuchverwaltungsinformationen 124c und dergleichen zu dem Server 200. Ebenso empfängt das Kommunikationsmodul 122 ein Spracherkennungsergebnis der gesendeten Spracherkennungsdaten 124b und dergleichen von dem Server 200.
  • Ein Anzeigemodul 123 zeigt das von dem Server 200 empfangene Erkennungsergebnis an, während dieses z.B. in einer Eingabemaske gespeichert wird, die auf der Ausgabeeinrichtung 107 durch den Prozess angezeigt ist, der durch das Spracherkennungssystem dieses Ausführungsbeispiels ausgeführt ist.
  • In dem Server 200 empfängt ein Kommunikationsmodul 221 das Benutzerwörterbuch 124a, Spracherkennungsdaten 124b, Wörterbuchverwaltungsinformationen 124c und dergleichen von dem Client 100. Das Kommunikationsmodul 221 sendet ebenso das Spracherkennungsergebnis der Spracherkennungsdaten 124b und dergleichen zu dem Client 100.
  • Ein Wörterbuchverwaltungsmodul 223 vermittelt eine Vielzahl von Arten von Erkennungswörterbüchern 225 (Erkennungswörterbuch 1 bis Erkennungswörterbuch N, N: eine positive Ganzzahl), die für jeweilige Erkennungsfelder (z.B. für Namen, Adressen, alphanumerische Symbole und dergleichen) ausgebildet sind, und das von dem Client 100 empfangene Benutzerwörterbuch 124a (eine Vielzahl von Arten von Wörterbüchern kann gleichzeitig verwendet sein), und wählt diese aus.
  • Es sei darauf hingewiesen, dass die Vielzahl von Arten von Erkennungswörterbüchern 225 für jede Wörterbuchverwaltungsinformation 124c (Eingabemaskenkennung, nachstehend beschrieben), die von dem Client 100 gesendet ist, ausgebildet sind. Jedem Erkennungswörterbuch 225 ist eine Erkennungswörterkennung angehängt, die das Erkennungsfeld jenes Erkennungswörterbuches anzeigt. Das Wörterbuchverwaltungsmodul 223 verwaltet eine Kennungstabelle 223a, die Erkennungswörterbuchkennungen und die Eingabemaskenkennungen einander korrespondierend speichert, wie gemäß 5 gezeigt.
  • Ein Spracherkennungsmodul 224 führt eine Spracherkennung unter Verwendung des Erkennungswörterbuchs oder -wörterbüchern 225 und des Benutzerwörterbuchs 124a, das zur Spracherkennung durch das Wörterbuchverwaltungsmodul 223 ausgewiesen ist, auf der Grundlage der Spracherkennungsdaten 124b und der Wörterbuchverwaltungsinformationen 124c aus, die von dem Client 100 empfangen sind.
  • Es sei darauf hingewiesen, dass das Benutzerwörterbuch 124a durch den Benutzer ausgebildet ist, um Erkennungswörter zu registrieren, die eine Spracherkennung zu durchlaufen haben, und speichert Aussprachen und Schreibweisen von zu erkennenden Wörtern einander korrespondierend, wie z.B. gemäß 3 gezeigt.
  • Die Spracherkennungsdaten 124b können entweder Sprachdaten, die durch das Spracheingabemodul 121 A/D-umgewan delt sind, oder Daten sein, die durch Codieren jener Sprachdaten erhalten sind.
  • Die Wörterbuchverwaltungsinformationen 124c zeigen ein Eingabeziel und dergleichen an. Beispielsweise sind die Wörterbuchverwaltungsinformationen 124c eine Kennung (Eingabemaskenkennung), die die Art von Eingabemaske angeben, wenn der Server 200 eine Eingabesprache erkennt und Textdaten, die jenem Spracherkennungsergebnis entsprechen, in jede Eingabemaske eingibt, die ein Spracheingabefenster definiert, das durch das Spracherkennungssystem des ersten Ausführungsbeispiels angezeigt ist, wie gemäß 4 gezeigt. Der Client 100 sendet diese Eingabemaskenkennung zu dem Server 200 als die Wörterbuchverwaltungsinformationen 124c. In dem Server 200 führt das Wörterbuchverwaltungsmodul 223 einen Look-up bei der Kennungstabelle 223a durch, um eine Erkennungswörterbuchkennung zu erhalten, die der empfangenen Eingabemaskenkennung entspricht, und bestimmt ein Erkennungswörterbuch 225, das bei der Spracherkennung zu verwenden ist.
  • Der durch das Spracherkennungssystem des ersten Ausführungsbeispiels ausgeführte Prozess ist nachstehend durch Verwendung von 6 beschrieben.
  • 6 zeigt ein Ablaufdiagramm des Prozesses, der durch das Spracherkennungssystem des ersten Ausführungsbeispiels ausgeführt wird.
  • In Schritt S101 sendet der Client 100 das Benutzerwörterbuch 124a zu dem Server 200.
  • In Schritt S201 empfängt der Server 200 das Benutzerwörterbuch 124a von dem Client 100.
  • In Schritt S102 sendet der Client 100, wenn Sprache in eine Eingabemaske als eine Zielspracheingabe eingegeben wird, die Eingabemaskenkennung jener Eingabemaske zu dem Server 200 als die Wörterbuchverwaltungsinformationen 124c.
  • In Schritt S202 empfängt der Server 200 die Eingabemaskenkennung von dem Client 100 als die Wörterbuchverwaltungsinformationen 124c.
  • In Schritt S203 führt der Server 200 einen Look-up bei der Kennungstabelle 223a unter Verwendung der Wörterbuchverwaltungsinformationen 124c durch, um eine Erkennungswörterbuchkennung zu erhalten, die der empfangenen Eingabemaskenkennung entspricht, und bestimmt ein Erkennungswörterbuch 225, das bei der Spracherkennung zu verwenden ist.
  • In Schritt S103 sendet der Client 100 Spracherkennungsdaten 124b, die Spracheingabe als Textdaten sind, die in jede Eingabemaske einzugeben sind, zu dem Server 200.
  • In Schritt S204 empfängt der Server 200 die Spracherkennungsdaten, die jeder Eingabemaske entsprechen, von dem Client 100.
  • In Schritt S205 führt der Server 200 eine Spracherkennung der Spracherkennungsdaten 124b in dem Spracherkennungsmodul 224 unter Verwendung des Erkennungswörterbuchs 225 und des Benutzerwörterbuchs 124a aus, das zur Spracherkennung durch das Wörterbuchverwaltungsmodul 223 ausgewiesen ist.
  • In dem ersten Ausführungsbeispiel werden alle Erkennungswörter, die in dem von dem Client 100 zu dem Server 200 gesendeten Benutzerwörterbuch 124a enthalten sind, bei einer Spracherkennung durch das Spracherkennungsmodul 224 verwendet.
  • In Schritt S206 sendet der Server 200 das durch das Spracherkennungsmodul 224 erhaltene Spracherkennungsergebnis zu dem Client 100.
  • In Schritt S104 empfängt der Client 100 das Spracherkennungsergebnis, das jeder Eingabemaske entspricht, von dem Server 200 und speichert Textdaten, die dem Spracherkennungsergebnis entsprechen, in der entsprechenden Eingabemaske.
  • Der Client 100 prüft in Schritt S105, ob die Verarbeitung zu beenden ist. Ist die Verarbeitung nicht zu beenden (NEIN in Schritt S105), dann kehrt der Ablauf zu Schritt S102 zurück, um die Verarbeitung zu wiederholen. Ist demgegenüber die Verarbeitung zu beenden (JA in Schritt S105), dann informiert der Client 100 den Server 200 bezüglich des Endes der Verarbeitung und beendet die Verarbeitung.
  • In Schritt S207 wird geprüft, ob eine Verarbeitungsendanweisung von dem Client 100 erfasst ist. Ist keine Verarbeitungsendanweisung erfasst (NEIN in Schritt S207), dann kehrt der Ablauf zu Schritt S202 zurück, um die vorstehend beschriebenen Prozesse zu wiederholen. Ist demgegenüber die Verarbeitungsendanweisung erfasst (JA in Schritt S207), dann endet die Verarbeitung.
  • Bei der vorstehend beschriebenen Verarbeitung werden, wenn Sprache in eine Eingabemaske als Zielspracheingabe eingegeben wird, jener Einsprachemaske entsprechende Wörterbuchverwaltungsinformationen 124c von dem Client 100 zu dem Server 200 gesendet. Alternativ können die Wörterbuchverwaltungsinformationen 124c gesendet werden, wenn die Eingabemaske als eine Zielspracheingabe durch eine Anweisung von der Eingabeeinrichtung 106 fokussiert wird (die Eingabemaske als eine Zielspracheingabe bestimmt wird).
  • In dem Server 200 wird eine Spracherkennung durchgeführt, nachdem alle Spracherkennungsdaten 124b empfangen sind. Alternativ kann jedes Mal dann, wenn Sprache als Textdaten in eine gegebene Eingabemaske eingegeben werden, der Abschnitt von Spracherkennungsdaten 124b rahmenweise zu dem Server 200 gesendet werden (beispielsweise stellt ein Rahmen 10 ms Sprachdaten dar) und kann eine Spracherkennung in Echtzeit durchgeführt werden.
  • Wie vorstehend gemäß dem ersten Ausführungsbeispiel beschrieben, kann in dem Client-Server-Spracherkennungssystem, da der Server 200 eine Spracherkennung von Spracherkennungsdaten 124b unter Verwendung sowohl eines geeigneten Erkennungswörterbuchs 225 als auch des Benutzerwörterbuchs 124a durchführt, die Spracherkennungspräzision in dem Server 200 verbessert werden, während die Verarbeitungslast unter Verwendung von Speicherressourcen verringert wird, die mit der Spracherkennung in dem Client 100 assoziiert sind.
  • [Zweites Ausführungsbeispiel]
  • In dem ersten Ausführungsbeispiel verwendet der Server 200 womöglich, falls keine in dem Benutzerwörterbuch 124a zu speichernden Erkennungsworte erzeugt werden, da das Benutzerwörterbuch 124a nicht verwendet werden muss, alle Erkennungsworte in dem Benutzerwörterbuch 124a bei Erkennung lediglich dann, wenn eine Benutzungsanforderung des Benutzerwörterbuchs 124a von dem Client 100 empfangen wird.
  • In diesem Fall ist eine Flagge, die anzeigt, ob das Benutzerwörterbuch 124a verwendet ist, als die Wörterbuchverwaltungsinformationen 124c hinzugefügt, wodurch der Server 200 bezüglich des Vorhandenseins/Fehlens der Verwendung des Benutzerwörterbuchs 124a informiert wird.
  • [Drittes Ausführungsbeispiel]
  • Da einige Zielworte in dem Benutzerwörterbuch 124a abhängig von einem Eingabeziel, der Situation und dergleichen nicht verwendet werden, werden womöglich lediglich spezifische Erkennungsworte in dem Benutzerwörterbuch 124a bei einer Erkennung abhängig von dem Eingabeziel und der Situation verwendet.
  • In einem derartigen Fall können, wenn das Benutzerwörterbuch durch Ausweisen von Eingabemaskenerkennungen für jeweilige Erkennungsworte verwaltet wird, wie gemäß 7 gezeigt, lediglich Erkennungsworte bei der Erkennung verwendet werden, die eine Eingabemaskenkennung der bei der Spracheingabe verwendeten Eingabemaske aufweisen. Alternativ kann eine Vielzahl von Eingabemaskenkennungen für ein gegebenes Erkennungswort ausgewiesen werden. Außerdem kann das Benutzerwörterbuch durch ein Ausweisen von Erkennungswörterbuchkennungen anstelle von Eingabemaskenkennungen verwaltet werden, wie gemäß 8 gezeigt.
  • [Viertes Ausführungsbeispiel]
  • Durch Kombination des zweiten und drittes Ausführungsbeispiels kann die Effizienz des Spracherkennungsprozesses des Spracherkennungsmoduls 224 weiter verbessert werden.
  • [Fünftes Ausführungsbeispiel]
  • Ein Großteil der Prozesse der Vorrichtung der Erfindung kann durch Programme implementiert werden. Wie vorstehend beschrieben, wird die Erfindung, da die Vorrichtung eine Mehrzweckvorrichtung verwenden kann, wie einen Personal Computer, ebenso durch Bereitstellen eines Speichermediums, das einen Programmcode eines Softwareprogramms aufzeichnet, der die Funktionen der vorstehend beschriebenen Ausführungsbeispiele implementieren kann, für ein System oder eine Vorrichtung, und durch Auslesen und Ausführen des in dem Speichermedium gespeicherten Programmcodes durch einen Computer des Systems oder der Vorrichtung gelöst. In diesem Fall implementiert der aus dem Speichermedium ausgelesene Programmcode selbst die Funktionen der vorstehend beschriebenen Ausführungsbeispiele, und das Speichermedium, das den Programmcode speichert, bildet die Erfindung. Als das Speichermedium zum Bereitstellen des Programmcodes kann beispielsweise eine Diskette, eine Festplatte, eine optische Platte, eine magnetooptische Platte, eine CD-ROM, ein Magnetband, eine nicht-flüchtige Speicherkarte, ein ROM und dergleichen verwendet werden.
  • Die Erfindung kann ebenso durch Bereitstellen des Speichermediums, das den Programmcode aufzeichnet, für einen Computer, und durch Ausführen eines Teils oder der Gesamtheit der tatsächlichen Prozesse, die durch ein auf dem Computer laufendes BS ausgeführt sind, gelöst werden. Außerdem können die Funktionen der vorstehend beschriebenen Ausführungsbeispiele durch einen Teil oder die Gesamtheit von tatsächlichen Verarbeitungsvorgängen, die durch eine CPU oder dergleichen ausgeführt sind, implementiert werden, die in einer Funktionserweiterungsplatine oder einer Funktionserweiterungseinheit angeordnet ist, die in den Computer eingefügt ist oder mit diesem verbunden wird, nachdem der aus dem Speichermedium ausgelesene Programmcode in einen Speicher der Erweiterungsplatine oder -einheit geschrieben ist. Wird die Erfindung bei dem Speichermedium angewendet, dann speichert das Speichermedium einen Programmcode, der dem gemäß 3 gezeigten Ablaufdiagramm entspricht.
  • Da viele offensichtlich sehr unterschiedliche Ausführungsbeispiele der Erfindung ausgeführt werden können, ohne von deren Schutzbereich abzuweichen, ist zu verstehen, dass die Erfindung nicht durch ihre spezifischen Ausführungsbeispiele beschränkt ist, sondern ausschließlich, wie in den beiliegenden Patentansprüchen definiert.

Claims (40)

  1. Client-/Server-Spracherkennungssystem zum Erkennen einer Spracheingabe bei einem Client (100) durch einen Server (200), wobei der Client (100) umfasst: eine Spracheingabeeinrichtung (121, 123) zum Eingeben von Sprache, eine Benutzerwörterbuchhalteeinrichtung zum Halten eines Benutzerwörterbuchs (124a), das durch Registrieren von durch den Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, und eine Übertragungseinrichtung (122) zum Übertragen von durch die Spracheingabeeinrichtung (121) eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und des Benutzerwörterbuchs (124a) zu dem Server (200), und wobei der Server (200) umfasst: eine Erkennungswörterbuchhalteeinrichtung zum Halten einer Vielzahl von Arten von Erkennungswörterbüchern (225), die für jeweilige Erkennungsfelder ausgebildet sind, eine Bestimmungseinrichtung (223) zum Bestimmen von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen (124c) entsprechen, aus der Vielzahl von Arten von Erkennungswörterbüchern (225) und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und eine Erkennungseinrichtung (224) zum Erkennen der Sprachdaten (124b) unter Verwendung zumindest des durch die Bestimmungseinrichtung (223) bestimmten Erkennungswörterbuchs (225).
  2. System gemäß Anspruch 1, wobei die Erkennungseinrichtung (224) zum Erkennen der Sprachdaten (124b) unter Verwendung des durch die Bestimmungseinrichtung (223) bestimmten Erkennungswörterbuchs (225) und des von dem Client (100) empfangenen Benutzerwörterbuchs (124a) betreibbar ist.
  3. System gemäß Anspruch 1 oder 2, wobei die Spracheingabeeinrichtung (121, 123) eine Anzeigeeinrichtung (123) zum Anzeigen einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (124c) eine Eingabenmaskenkennung darstellen, die eine Art der Eingabemaske angibt.
  4. System gemäß einem der Ansprüche 1 bis 3, wobei die Wörterbuchverwaltungsinformationen (124c) Informationen enthalten, die angeben, ob das Benutzerwörterbuch (124a) bei einer Erkennung der Sprachdaten (124b) zu verwenden ist.
  5. System gemäß einem der vorstehenden Ansprüche, wobei das Benutzerwörterbuch (124a) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist.
  6. System gemäß Anspruch 3, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern von zumindest einer Eingabemaskekennung und den Zielerkennungswörtern in Entsprechung miteinander ausgebildet ist.
  7. System gemäß einem der vorstehenden Ansprüche, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern von zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet ist.
  8. System gemäß einem der vorstehenden Ansprüche, wobei die Sprachdaten (124b) durch Codierung jener Sprachdaten erhaltene Daten sind.
  9. Verfahren zum Steuern eines Client-/Server-Spracherkennungssystems zum Erkennen einer Spracheingabe bei einem Client (100) durch einen Server (200), mit: einem Spracheingabeschritt des Eingehens von Sprache, und einem Übertragungsschritt des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und eines in dem Client (100) gehaltenen Benutzerwörterbuchs (124a), das durch ein Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server, einem Bestimmungsschritt des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen entsprechen, aus einer Vielzahl von Arten von in dem Server (200) gehaltenen Erkennungswörterbüchern (225), die für jeweilige Erkennungsfelder ausgebildet sind, und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und einem Erkennungsschritt des Erkennens der Sprachdaten (124b) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225).
  10. Verfahren gemäß Anspruch 9, wobei der Erkennungsschritt einen Schritt des Erkennens der Sprachdaten (124b) unter Verwendung des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225) und des von dem Client (100) empfangenen Benutzerwörterbuchs (124a) enthält.
  11. Verfahren gemäß Anspruch 9 oder 10, wobei der Spracheingabeschritt einen Anzeigeschritt des Anzeigens einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (124c) eine Eingabemaskenkennung darstellen, die eine Art von Eingabemaske angibt.
  12. Verfahren gemäß einem der Ansprüche 9 bis 11, wobei die Wörterbuchverwaltungsinformationen (124c) Informationen enthalten, die angeben, ob das Benutzerwörterbuch (124a) bei einer Erkennung der Sprachdaten (124b) zu verwenden ist.
  13. Verfahren gemäß einem der Ansprüche 9 bis 12, wobei das Benutzerwörterbuch (124a) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet wird.
  14. Verfahren gemäß Anspruch 11, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern von zumindest einer Eingabemaskenkennung und der Zielerkennungswörter in Entsprechung miteinander ausgebildet wird.
  15. Verfahren gemäß einem der Ansprüche 9 bis 14, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern von zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet wird.
  16. Verfahren gemäß einem der Ansprüche 9 bis 15, wobei die Sprachdaten (124b) durch Codieren jener Sprachdaten erhaltene Daten sind.
  17. Computerlesbarer Speicher, der einen Programmcode zur Steuerung eines Client-/Server-Spracherkennungssystems zum Erkennen einer Spracheingabe bei einem Client durch einen Server speichert, mit: einem Programmcode eines Spracheingabeschritts des Eingebens von Sprache, einem Programmcode eines Übertragungsschritts des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet werden, und eines in dem Client (100) gehaltenen Benutzerwörterbuchs (124a), das durch Registrieren von durch den Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server (200), einem Programmcode eines Bestimmungsschritts des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen (124c) entsprechen, aus einer Vielzahl von Arten von in dem Server (200) gehaltenen Erkennungswörterbüchern (225), die für jewei lige Erkennungsfelder ausgebildet sind, und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und einem Programmcode eines Erkennungsschritts des Erkennens der Sprachdaten (124b) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225).
  18. Spracherkennungsserver (200) zum Erkennen einer Spracheingabe bei einem Client (100) und zum Senden eines Erkennungsergebnisses zu dem Client (100), mit: einer Empfangseinrichtung zum Empfangen von dem Client (100) von Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines Benutzerwörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, einer Erkennungswörterbuchhalteeinrichtung zum Halten einer Vielzahl von Arten von für jeweilige Erkennungsfelder ausgebildeten Erkennungswörterbüchern (225), einer Bestimmungseinrichtung (223) zum Bestimmen von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen (124c) entsprechen, aus der Vielzahl von Arten von Erkennungswörterbüchern (225) und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und einer Erkennungseinrichtung (224) zum Erkennen der Sprachdaten unter Verwendung zumindest des durch die Bestimmungseinrichtung (223) bestimmten Erkennungswörterbuchs (225).
  19. Server gemäß Anspruch 18, wobei die Erkennungseinrichtung (224) zum Erkennen der Sprachdaten (124b) unter Verwendung des durch die Bestimmungseinrichtung (223) bestimmten Erkennungswörterbuchs (225) und des von dem Client (100) empfangenen Benutzerwörterbuchs (124a) betreibbar ist.
  20. Server gemäß Anspruch 18 oder 19, wobei die Sprachdaten (124b) durch Codieren jener Sprachdaten erhaltene Daten sind.
  21. Spracherkennungsclient (100) zum Senden von durch einen Server (200) zu erkennender Eingabesprache und zum Empfangen eines Erkennungsergebnisses jener Sprache, mit: einer Spracheingabeeinrichtung (121, 123) zum Eingeben von Sprache, einer Benutzerwörterbuchhalteeinrichtung zum Halten eines Benutzerwörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, und einer Übertragungseinrichtung (122) zum Übertragen von durch die Spracheingabeeinrichtung eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und des Benutzerwörterbuchs (124a) zu dem Server (200).
  22. Client gemäß Anspruch 21, wobei die Spracheingabeeinrichtung (121, 123) eine Anzeigeeinrichtung (123) zum Anzeigen einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (124c) eine Eingabemaskenkennung darstellen, die eine Art von Eingabemaske angibt.
  23. Client gemäß Anspruch 21 oder 22, wobei die Wörterbuchverwaltungsinformationen (124c) Informationen enthal ten, die angeben, ob das Benutzerwörterbuch (124a) bei einer Erkennung der Sprachdaten zu verwenden ist.
  24. Client gemäß einem der Ansprüche 21 bis 23, wobei das Benutzerwörterbuch (124a) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist.
  25. Client gemäß Anspruch 22, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern zumindest einer Eingabemaskenkennung und der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist.
  26. Client gemäß einem der Ansprüche 21 bis 25, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet ist.
  27. Client gemäß einem der Ansprüche 21 bis 25, wobei die Sprachdaten (124b) durch Codieren jener Sprachdaten erhaltene Daten sind.
  28. Verfahren zum Steuern eines Spracherkennungsservers (200) zum Erkennen einer Spracheingabe bei einem Client (100) und zum Senden eines Erkennungsergebnisses zu dem Client (100), mit: einem Empfangsschritt des Empfangens von dem Client von Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines Benutzerwörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, einem Bestimmungsschritt des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen (124c) entsprechen, aus einer Vielzahl von Arten von in dem Server (200) gehaltenen Erkennungswörterbüchern (225), die für jeweilige Erkennungsfelder ausgebildet sind, und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und einem Erkennungsschritt des Erkennens der Sprachdaten (124b) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225).
  29. Verfahren gemäß Anspruch 28, wobei der Erkennungsschritt einen Schritt des Erkennens der Sprachdaten (124b) unter Verwendung des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225) und des von dem Client (100) empfangenen Benutzerwörterbuchs (124a) enthält.
  30. Verfahren gemäß Anspruch 28 oder 29, wobei die Sprachdaten (124b) durch Codieren jener Sprachdaten erhaltene Daten sind.
  31. Verfahren zum Steuern eines Spracherkennungsclients (100) zum Senden von durch einen Server (200) zu erkennender Eingabesprache und zum Empfangen eines Erkennungsergebnisses von jener Sprache, mit: einem Spracheingabeschritt des Eingebens von Sprache, und einem Übertragungsschritt des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines in dem Client (100) gehaltenen Benutzer wörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server (200).
  32. Verfahren gemäß Anspruch 31, wobei der Spracheingabeschritt einen Anzeigeschritt des Anzeigens einer Eingabemaske als eine Zielspracheingabe umfasst, und wobei die Wörterbuchverwaltungsinformationen (124c) eine Eingabemaskenkennung darstellen, die eine Art von Eingabemaske angibt.
  33. Verfahren gemäß Anspruch 31 oder 32, wobei die Wörterbuchverwaltungsinformationen (124c) Informationen enthalten, die angeben, ob das Benutzerwörterbuch (124a) bei einer Erkennung der Sprachdaten (124b) zu verwenden ist.
  34. Verfahren gemäß einem der Ansprüche 31 bis 33, wobei das Benutzerwörterbuch (124a) durch Speichern von Aussprachen und Schreibweisen der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist.
  35. Verfahren gemäß Anspruch 32, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern zumindest einer Eingabemaskenkennung und der Zielerkennungswörter in Entsprechung miteinander ausgebildet ist.
  36. Verfahren gemäß einem der Ansprüche 31 bis 35, wobei das Benutzerwörterbuch (124a) ebenso durch Speichern zumindest einer Erkennungswörterbuchkennung, die Erkennungsfelder der Vielzahl von Arten von Erkennungswörterbüchern angibt, und der Zielerkennungswörter ausgebildet ist.
  37. Verfahren gemäß einem der Ansprüche 31 bis 36, wobei die Sprachdaten (124b) durch Codieren jener Sprachdaten erhaltene Daten sind.
  38. Computerlesbarer Speicher, der einen Programmcode zur Steuerung eines Spracherkennungsservers (200) zum Erkennen einer Spracheingabe bei einem Client (100) und zum Senden eines Erkennungsergebnisses zu dem Client (100) speichert, mit: einem Programmcode eines Empfangsschritts des Empfangens von dem Client (100) von Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines Benutzerwörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, einem Programmcode eines Bestimmungsschritts des Bestimmens von einem oder mehreren Erkennungswörterbüchern (225), die den von dem Client (100) empfangenen Wörterbuchverwaltungsinformationen (124c) entsprechen, aus einer Vielzahl von Arten von in dem Server (200) gehaltenen Erkennungswörterbüchern (225), die für jeweilige Erkennungsfelder ausgebildet sind, und dem von dem Client (100) empfangenen Benutzerwörterbuch (124a), und einem Programmcode eines Erkennungsschritts des Erkennens der Sprachdaten (124b) unter Verwendung zumindest des in dem Bestimmungsschritt bestimmten Erkennungswörterbuchs (225).
  39. Computerlesbarer Speicher, der einen Programmcode zur Steuerung eines Spracherkennungsclients (100) zum Senden einer durch einen Server (200) zu erkennenden Eingabesprache und zum Empfangen eines Erkennungsergebnisses jener Sprache speichert, mit: einem Programmcode eines Spracheingabeschritts des Eingebens von Sprache, und einem Programmcode eines Übertragungsschritts des Übertragens von in dem Spracheingabeschritt eingegebenen Sprachdaten (124b), von Wörterbuchverwaltungsinformationen (124c), die zum Bestimmen eines Erkennungsfeldes eines zum Erkennen der Sprachdaten verwendeten Erkennungswörterbuchs verwendet sind, und eines in dem Client (100) gehaltenen Benutzerwörterbuchs (124a), das durch Registrieren von durch einen Benutzer ausgewiesenen Zielerkennungswörtern ausgebildet ist, zu dem Server (200).
  40. Prozessorimplementierbares Anweisungsprodukt, das eine programmierbare Computervorrichtung veranlasst, alle Schritte des Verfahrens gemäß einem der Ansprüche 28 bis 37 auszuführen, wenn das Anweisungsprodukt auf der programmierbaren Computervorrichtung läuft.
DE60126462T 2000-11-27 2001-11-27 Client/Server basiertes Spracherkennungssystem Expired - Lifetime DE60126462T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000360203 2000-11-27
JP2000360203A JP3581648B2 (ja) 2000-11-27 2000-11-27 音声認識システム、情報処理装置及びそれらの制御方法、プログラム

Publications (2)

Publication Number Publication Date
DE60126462D1 DE60126462D1 (de) 2007-03-22
DE60126462T2 true DE60126462T2 (de) 2007-11-15

Family

ID=18831838

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60126462T Expired - Lifetime DE60126462T2 (de) 2000-11-27 2001-11-27 Client/Server basiertes Spracherkennungssystem

Country Status (7)

Country Link
US (1) US7099824B2 (de)
EP (1) EP1209662B1 (de)
JP (1) JP3581648B2 (de)
KR (1) KR100679113B1 (de)
CN (1) CN1187733C (de)
AT (1) ATE353463T1 (de)
DE (1) DE60126462T2 (de)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US7409349B2 (en) 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7610547B2 (en) 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7366673B2 (en) 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
JP3542578B2 (ja) * 2001-11-22 2004-07-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
JP2004325688A (ja) * 2003-04-23 2004-11-18 Toyota Motor Corp 音声認識システム
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
DE10329546A1 (de) * 2003-06-30 2005-01-20 Daimlerchrysler Ag Lexikon gesteuerter Teilsprachmodell-Mechanismus für die automatische Spracherkennung
US8311835B2 (en) 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
JP2005128076A (ja) * 2003-10-21 2005-05-19 Ntt Docomo Inc 端末からの音声データを認識する音声認識システム及び方法
US20050119892A1 (en) * 2003-12-02 2005-06-02 International Business Machines Corporation Method and arrangement for managing grammar options in a graphical callflow builder
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US20060095266A1 (en) * 2004-11-01 2006-05-04 Mca Nulty Megan Roaming user profiles for speech recognition
US8275618B2 (en) * 2004-12-22 2012-09-25 Nuance Communications, Inc. Mobile dictation correction user interface
CN103050117B (zh) * 2005-10-27 2015-10-28 纽昂斯奥地利通讯有限公司 用于处理口述信息的方法和系统
US7774202B2 (en) * 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
JPWO2008007688A1 (ja) * 2006-07-13 2009-12-10 日本電気株式会社 音声認識機能を有する通話端末、その音声認識辞書の更新支援装置及び更新方法
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
KR100913130B1 (ko) * 2006-09-29 2009-08-19 한국전자통신연구원 사용자 프로파일을 이용한 음성 인식 서비스 방법 및 장치
JP4859642B2 (ja) * 2006-11-30 2012-01-25 富士通株式会社 音声情報管理装置
JP5233989B2 (ja) * 2007-03-14 2013-07-10 日本電気株式会社 音声認識システム、音声認識方法、および音声認識処理プログラム
TWI336048B (en) * 2007-05-11 2011-01-11 Delta Electronics Inc Input system for mobile search and method therefor
CN101079885B (zh) * 2007-06-26 2010-09-01 中兴通讯股份有限公司 一种提供自动语音识别统一开发平台的系统和方法
JP4749438B2 (ja) * 2008-03-28 2011-08-17 三菱電機インフォメーションシステムズ株式会社 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
JP4749437B2 (ja) * 2008-03-28 2011-08-17 三菱電機インフォメーションシステムズ株式会社 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
JP4815463B2 (ja) * 2008-03-28 2011-11-16 三菱電機インフォメーションシステムズ株式会社 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
JP5471106B2 (ja) * 2009-07-16 2014-04-16 独立行政法人情報通信研究機構 音声翻訳システム、辞書サーバ装置、およびプログラム
WO2011093025A1 (ja) * 2010-01-29 2011-08-04 日本電気株式会社 入力支援システム、方法、およびプログラム
US8898065B2 (en) 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
WO2014055076A1 (en) 2012-10-04 2014-04-10 Nuance Communications, Inc. Improved hybrid controller for asr
CN103839549A (zh) * 2012-11-22 2014-06-04 腾讯科技(深圳)有限公司 一种语音指令控制方法及系统
CN105009206B (zh) * 2013-03-06 2018-02-09 三菱电机株式会社 语音识别装置和语音识别方法
JP6416752B2 (ja) * 2013-04-19 2018-10-31 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 家電機器の制御方法、家電機器制御システム、及びゲートウェイ
CN104217720B (zh) * 2013-05-29 2019-03-01 腾讯科技(深圳)有限公司 一种基于短连接实现通讯录语音识别的方法、系统和装置
CN103474063B (zh) * 2013-08-06 2015-12-23 福建华映显示科技有限公司 语音辨识系统以及方法
CN105023575B (zh) * 2014-04-30 2019-09-17 中兴通讯股份有限公司 语音识别方法、装置和系统
KR102325724B1 (ko) * 2015-02-28 2021-11-15 삼성전자주식회사 다수의 기기에서 텍스트 데이터 동기화
US10049666B2 (en) * 2016-01-06 2018-08-14 Google Llc Voice recognition system
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
JP6883471B2 (ja) * 2017-05-11 2021-06-09 オリンパス株式会社 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置
KR20190096853A (ko) * 2019-07-30 2019-08-20 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
JP7463690B2 (ja) * 2019-10-31 2024-04-09 株式会社リコー サーバ装置、通信システム、情報処理方法、プログラムおよび記録媒体
TWI752474B (zh) * 2020-04-22 2022-01-11 莊連豪 無障礙智能語音系統及其控制方法
CN112100987A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 一种多源数据字典的转码方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695683A (ja) * 1992-09-10 1994-04-08 Fujitsu Ltd 音声認識装置
JP3725566B2 (ja) 1992-12-28 2005-12-14 株式会社東芝 音声認識インターフェース
US5632002A (en) * 1992-12-28 1997-05-20 Kabushiki Kaisha Toshiba Speech recognition interface system suitable for window systems and speech mail systems
JP3267064B2 (ja) * 1994-09-20 2002-03-18 株式会社日立製作所 パターン情報処理装置
TW274135B (de) 1994-09-14 1996-04-11 Hitachi Seisakusyo Kk
JPH08180141A (ja) * 1994-12-20 1996-07-12 Matsushita Electric Ind Co Ltd 文字認識システム
JPH08272789A (ja) 1995-03-30 1996-10-18 Mitsubishi Electric Corp 言語情報変換装置
US5774628A (en) 1995-04-10 1998-06-30 Texas Instruments Incorporated Speaker-independent dynamic vocabulary and grammar in speech recognition
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
KR19990009682A (ko) * 1997-07-11 1999-02-05 김유승 화자인식 원격 클라이언트 계정 검증 시스템 및 화자검증방법
EP0954855B1 (de) * 1997-11-14 2003-05-21 Koninklijke Philips Electronics N.V. Verfahren und system zur gemeinsamen nutzung von hardware in einem sprachbasierten kommunikationssystem mit sprachverarbeitung auf verschiedenen relativen komplexitätsstufen
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
JPH11308270A (ja) 1998-04-22 1999-11-05 Olympus Optical Co Ltd 通信システム及びそれに用いられる端末装置
JP2000075887A (ja) 1998-08-31 2000-03-14 Sony Corp パターン認識装置、方法及びシステム
JP2000206983A (ja) 1999-01-19 2000-07-28 Sony Corp 情報処理装置および方法、並びに提供媒体
KR100647420B1 (ko) * 1999-12-13 2006-11-17 주식회사 케이티 클라이언트/서버 모델을 활용한 음성인식 시스템 및 그를 이용한 음성인식 서비스 제공방법
CN1315721A (zh) * 2000-03-23 2001-10-03 韦尔博泰克有限公司 客户服务器语音信息传送系统与方法

Also Published As

Publication number Publication date
JP3581648B2 (ja) 2004-10-27
US20020065652A1 (en) 2002-05-30
ATE353463T1 (de) 2007-02-15
KR100679113B1 (ko) 2007-02-07
CN1356688A (zh) 2002-07-03
US7099824B2 (en) 2006-08-29
EP1209662B1 (de) 2007-02-07
DE60126462D1 (de) 2007-03-22
KR20020041296A (ko) 2002-06-01
JP2002162988A (ja) 2002-06-07
EP1209662A3 (de) 2004-01-28
EP1209662A2 (de) 2002-05-29
CN1187733C (zh) 2005-02-02

Similar Documents

Publication Publication Date Title
DE60126462T2 (de) Client/Server basiertes Spracherkennungssystem
DE69511786T2 (de) Zeichenerkennungsgerät und Verfahren zur Steuerung desselben
DE60219048T2 (de) Sektionsextrahierungswerkzeug für pdf-dokumente
DE69528738T2 (de) Systeme und Verfahren zur Herstellung und Auffrischung zusammengesetzter Dokumente
DE69224953T2 (de) Spracherkennung
DE69734562T2 (de) Informationsverarbeitungvorrichtung und Steuerungsverfahren dafür
DE3382691T2 (de) Bildschirmverwaltungssystem.
EP0855062B1 (de) Informationssystem und verfahren zur speicherung von daten in einem informationssystem
DE19705955A1 (de) Verfahren zum Generieren einer Implementierung eines Workflow-Prozessmodells in einer Objektumgebung
DE10308550A1 (de) System und Verfahren zur automatischen Daten-Prüfung und -Korrektur
DE69718085T2 (de) Kompression von strukturierten Daten
DE60202847T2 (de) Abfragesystem in natürlicher sprache für den zugriff auf ein informationssystem
DE10034841A1 (de) Automatische Jobbetriebsmittel-Verwendung und -Wiedergewinnung
DE112009005114T5 (de) Einrichtungssuchvorrichtung
DE60123153T2 (de) Sprachgesteuertes Browsersystem
DE112020000003T5 (de) Informationsbereitstellungssystem und Informationsbereitstellungsverfahren
DE69333762T2 (de) Spracherkennungssystem
DE10127559A1 (de) Benutzergruppenspezifisches Musterverarbeitungssystem
DE10120867B4 (de) Computersystem, Verfahren zum Betrieb eines Computersystems, sowie Maschinenlesbare Speichervorrichtung
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
DE69708335T2 (de) Bildverarbeitungssystem und -verfahren unter verwendung von personifizierungstechniken
DE10056825C2 (de) Verfahren, Vorrichtung und Computerprogramm zum Erzeugen eines Zufallstestcodes
DE60203117T2 (de) Signalisierung von ereignissen in arbeitsfluss-verwaltungssystemen
WO2000054188A2 (de) Verfahren zur automatischen wiedergewinnung von engineeringdaten aus anlagen
DE19814348A1 (de) System und Verfahren zur Kommunikation mit verschiedenen elektronischen Archivsystemen

Legal Events

Date Code Title Description
8381 Inventor (new situation)

Inventor name: KUSHIDA, AKIHIRO, OHTA, TOKYO, JP

Inventor name: KOSAKA, TETSUO, OHTA, TOKYO, JP

8364 No opposition during term of opposition