DE112013006728B4

DE112013006728B4 - Spracherkennungssystem und Spracherkennungsgerät

Info

Publication number: DE112013006728B4
Application number: DE112013006728.5T
Authority: DE
Inventors: Isamu Ogawa; Toshiyuki Hanazawa; Tomohiro Narita
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2013-02-25
Filing date: 2013-11-20
Publication date: 2020-10-01
Anticipated expiration: 2033-11-21
Also published as: DE112013006728T5; US20160275950A1; CN105027198A; JP5921756B2; WO2014129033A1; CN105027198B; US9761228B2; JPWO2014129033A1

Abstract

Spracherkennungssystem einschließlich eines Server-Geräts (100) und eines Spracherkennungsgeräts (200) auf einer Client-Seite, welches mit dem Server-Gerät (100) verbunden ist, bei dembesagtes Server-Gerät (100) umfasst:einen Server-seitigen Empfänger (101), der Sprachdaten von besagtem Spracherkennungsgerätempfängt;einen Server-seitigen Spracherkenner (102), der eine Spracherkennung auf den Sprachdaten durchführt, die von besagtem Server-seitigem Empfänger empfangen werden, und eine Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten generiert; undeinen Server-seitigen Übermittler (103), der besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten, die von besagtem Server-seitigen Spracherkenner (102) generiert werden, an besagtes Spracherkennungsgerät (200) übermittelt, und wobei besagtes Spracherkennungsgerät (200) umfasst:einen Spracheingeber (201), der eine geäußerte Sprache, die darin eingegeben wird, in besagte Sprachdaten konvertiert;einen Client-seitigen Spracherkenner (202), der Spracherkennung auf besagten Sprachdaten durchführt, die von besagtem Spracheingeber (201) konvertiert wurden, und einen Client-seitigen Spracherkennungsergebniskandidaten generiert;einen Client-seitigen Übermittler (203), der besagte Sprachdaten, die von besagtem Spracheingeber (201) konvertiert wurden, an besagtes Server-Gerät (100) übermittelt;einen Client-seitigen Empfänger (204), der besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten empfängt, die von besagtem Server-seitigen Übermittler (103)übermittelt werden;einen Erkennungsergebniskandidatenkomparator (205), der die besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten vergleicht, die von besagtem Client-seitigen Empfänger (204) empfangen werden, um Texte zu erkennen, die einen Unterschied aufweisen;einen Erkennungsergebnisintegrator (206), der besagten Client-seitigen Spracherkennungsergebniskandidaten und die besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten auf der Basis von besagtem Client-seitigen Spracherkennungsergebniskandidaten, besagter Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten und einem Erkennungsergebnis, das von besagtem Erkennungsergebniskandidatenkomparator (205) bereitgestellt wird, integriert, um über ein Spracherkennungsergebnis zu entscheiden;einen Ausgeber (207), der das Spracherkennungsergebnis ausgibt, das der besagte Erkennungsergebnisintegrator (206) entschieden hat; und einen Eingaberegeldeterminator (211), der besagten Client-seitigen Spracherkennungsergebniskandidaten mit Äußerungsregelmustern vergleicht, bei denen in jedem ein vorbestimmtes Schlüsselwort in Zusammenhang mit einer Äußerungsregel besagten Schlüsselworts gebracht ist, und eine Äußerungsregel besagter Sprachdaten bestimmt, und bei dem besagter Erkennungsergebnisintegrator besagten Client-seitigen Spracherkennungsergebniskandidaten und besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten auf der Basis von besagtem Client-seitigen Spracherkennungsergebniskandidaten, besagter Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten, dem Erkennungsergebnis, das von besagtem Erkennungsergebniskandidatenkomparator bereitgestellt wird, und der Äußerungsregel, die von besagtem Eingaberegeldeterminator (211) festgelegt wird, integriert.

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft ein Spracherkennungssystem, das Spracherkennung auf beiden, einer Server-Seite und einer Client-Seite, durchführt, und eine Technik zum Bereitstellen einer Verbesserung der Spracherkennungsgenauigkeit in einem Spracherkennungssystem auf der Client-Seite des vorstehend erwähnten Spracherkennungssystems.
HINTERGRUND DER ERFINDUNG
Üblicherweise wird ein Spracherkennungssystem bereitgestellt, das eine Spracherkennung auf beiden, einer Server-Seite und einer Client-Seite, durchführt, um die Spracherkennungsleistung auf Sprachdaten zu verbessern.
Zum Beispiel wird für ein Spracherkennungsgerät, das in Patent Referenz 1 offenbart ist, ein Verfahren zum Durchführen einer Spracherkennung zuerst auf einer Client-Seite, und zum Durchführen einer Spracherkennung auf einer Server-Seite und Nutzen eines Spracherkennungsergebnisses, das von der Server-Seite bereitgestellt wird, vorgeschlagen, wenn festgestellt wird, dass eine Erkennungspunktezahl (recognition score), die zeigt, dass die Genauigkeit eines Spracherkennungsergebnis auf der Client-Seite, schlecht ist. Weiterhin wird auch ein Verfahren zum Durchführen einer gleichzeitigen und parallelen Spracherkennung auf einer Client-Seite und einer Spracherkennung auf einer Server-Seite vorgeschlagen, das die Erkennungspunktezahl eines Spracherkennungsergebnisses, das von der Client-Seite bereitgestellt wird, und die Erkennungspunktezahl eines Spracherkennungsergebnisses, das von der Server-Seite bereitgestellt wird, vergleicht, und das Spracherkennungsergebnis mit einer besseren Erkennungspunktezahl nutzt.
Weiterhin wird für einen Spracherkennungssystem, das in Patentreferenz 2 offenbart ist, ein Verfahren eines Server-seitigen Übertragungsteils für Sprachinformation (ein Nomen, ein Partikel oder dergleichen) zusätzlich zu einem Spracherkennungsergebnis, und eine Client-Seite, die das Erkennungsergebnis durch Nutzen des Sprachinformationsteils korrigiert, der davon empfangen wird, vorgeschlagen, zum Beispiel Ersetzen eines gewöhnlichen Nomen mit einem richtigen Nomen.
Die US 8 041 565 B1 offenbart ein Modul zur Umwandlung von Sprache in Text welches eine zentrale Datenbank mit Benutzersprachprofilen verwendet, um Sprache in Text umzuwandeln.
Eingehende Audioinformationen werden basierend auf der Erkennung von Stille in zahlreiche Audiofragmente fragmentiert. Die Audioinformationen werden auch von einer beliebigen Anzahl von Sprachmodulen in zahlreiche Textdateien konvertiert. Jede Textdatei wird dann auf der Grundlage der Grenzen, die während der Audiofragmentierung festgelegt wurden, in zahlreiche Textfragmente fragmentiert. Jeder Satz von Textfragmenten von den verschiedenen Sprachmaschinen, die einem einzelnen Audiofragment entsprechen, wird dann verglichen. Die beste Annäherung an das Audiofragment ergibt sich aus der Menge der Textfragmente. Auch ein Hybrid kann hergestellt werden. Wenn keine Einigung erzielt wird, werden das Audiofragment und die festgelegten Textfragmente an menschliche Agenten gesendet, die die Ergebnisse überprüfen und bearbeiten, um ein endgültig bearbeitetes Textfragment zu erstellen, das dem Audiofragment am besten entspricht. Eine Fragmentierung, die überlappende Audiofragmente erzeugt, erfordert das Zusammenfügen der endgültigen Textfragmente, um die ausgegebene Textdatei zu erzeugen.
DOKUMENT VERWANDTER TECHNIK
Patentreferenz

Patentreferenz 1: Ungeprüfte japanische Patentanmeldungsveröffentlichung Nr. JP 2009 - 237 439 A
Patentreferenz 2: Ungeprüfte japanische Patentanmeldungsveröffentlichung Nr. JP 2010 - 85 536 A

ZUSAMMENFASSUNG DER ERFINDUNG
DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
Ein Problem mit der durch die vorstehend erwähnte Patentreferenz 1 offenbarten Technik besteht jedoch darin, dass weil, nachdem die Client-Seite eine Spracherkennung zuerst durchgeführt hat, die Server-Seite eine Spracherkennung durchführt, die Zeit, die das Ergebnis des Addierens einer Verzögerungszeit ist, die für die Client-Seite erforderlich ist, um einen Spracherkennungsergebnis zu erfassen, und einer Verzögerungszeit, die für die Server-Seite erforderlich ist, um ein Spracherkennungsergebnis zu erfassen, eine Antwortzeit ist, und sich deshalb die Verzögerungszeit, welche verstrichen ist, bis die Ergebnisse erfasst sind, seitdem die Sprache eingegeben wurde, erhöht.
Ein weiteres Problem besteht darin, dass weil die Erfassungspunktezahl, die von der Client-Seite bereitgestellt wird, und die, welche von der Server-Seite bereitgestellt wird, verglichen werden, und die bessere der Erkennungspunktezahlen verwendet wird, wenn die Server-Seite keinerlei Erfassungspunktezahl übermittelt, oder wenn das Berechnungsverfahren der Erkennungspunktezahl, welche die Server-Seite übermittelt, unbekannt ist (zum Beispiel in einem Fall, in welchem der Client-Hersteller nur die Spracherkennung auf der Client-Seite entwickelt, und einen Spracherkennungs-Server verwendet, der von einem anderen Hersteller bereitgestellt wird), der Vergleich mit der Erkennungspunktezahl, die von der Client-Seite bereitgestellt wird, nicht korrekt gemacht werden kann, und eine hochgenaue Auswahl eines Spracherkennungsergebnisses nicht durchgeführt werden kann.
Weiterhin besteht ein Problem mit der durch Patentreferenz 2 offenbarten Technik darin, das weil die Client-Seite das Spracherkennungsergebnis unter Verwenden des Spracherkennungsergebnisses und des Sprachinformationsteils korrigiert, welche von der Server-Seite übermittelt werden, wenn die Server-Seite keinerlei Sprachinformationsteil übermittelt, ein Spracherkennungsergebnis nicht mit einem hohen Genauigkeitsgrad ausgewählt werden kann.
Die vorliegende Erfindung wurde gemacht, um die vorstehend erwähnten Probleme zu lösen, und es ist deshalb eine Aufgabe der vorliegenden Erfindung, eine Technik zum Reduzieren der Verzögerungszeit bereitzustellen, welche verstrichen ist, bis Spracherkennungsergebnisse erfasst sind, seitdem eine Sprache eingegeben wurde, und ein Auswählen eines Spracherkennungsergebnisses mit einem hohen Genauigkeitsgrad auch dann, wenn von dem Spracherkennungsergebnis abweichende Information nicht verwendet werden kann, wobei die Information Erkennungspunktezahlen und Sprachinformationsteile einschließt, welche die Server-Seite übermittelt.
MITTEL ZUM LÖSEN DES PROBLEMS
In Übereinstimmung mit der vorliegenden Erfindung wird ein Spracherkennungssystem bereitgestellt, einschließend: ein Server-Gerät, das mit einem Server-seitigen Empfänger ausgestattet ist, der Sprachdaten von einem Spracherkennungsgerät empfängt, einen Server-seitigen Spracherkenner, der eine Spracherkennung auf den Sprachdaten durchführt, die von dem Server-seitigen Empfänger empfangen werden, und eine Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten generiert, und einen Server-seitigen Übermittler, der besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten, die von dem Server-seitigen Spracherkenner generiert werden, an das Spracherkennungsgerät übermittelt; und das Spracherkennungsgerät ist ausgestattet mit einem Spracheingeber, der eine geäußerte Sprache, die darin eingegeben wird, in die Sprachdaten konvertiert, und einem Client-seitigen Spracherkenner, der eine Spracherkennung auf den Sprachdaten durchführt, die von dem Spracheingeber konvertiert werden, und einen Client-seitigen Spracherkennungsergebniskandidaten generiert, einem Client-seitigen Übermittler, der Sprachdaten, die von dem Spracheingeber konvertiert werden, an das Server-Gerät übermittelt, einem Client-seitigen Empfänger, der besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten empfängt, die von dem Server-seitigen Übermittler übermittelt werden, einem Erkennungsergebniskandidatenkomparator, der die besagte Vielzahl von Server-seitigen Spracherkennungsergebniskandidaten vergleicht, die von dem Client-seitigen Empfänger empfangen werden, um Texte zu erkennen, die einen Unterschied aufweisen, einem Erkennungsergebnisintegrator, der den Client-seitigen Spracherkennungsergebniskandidaten und die besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten auf der Basis des Client-seitigen Spracherkennungsergebniskandidaten, besagter Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten, und einem Erkennungsergebnis integriert, das von dem Erkennungsergebniskandidatenkomparator bereitgestellt wird, um über ein Spracherkennungsergebnis zu entscheiden, und einem Ausgeber, der das Spracherkennungsergebnis ausgibt, über das von dem Erkennungsergebnisintegrator entschieden wurde. Das Spracherkennungssystem umfasst auch einen Eingaberegeldeterminator, der besagte Client-seitiges Spracherkennungsergebniskandidaten mit Äußerungsregelmustern vergleicht, bei denen in jedem ein vorbestimmtes Schlüsselwort in Zusammenhang mit einer Äußerungsregel besagten Schlüsselworts gebracht ist, und eine Äußerungsregel besagter Sprachdaten bestimmt, und bei dem besagter Erkennungsergebnisintegrator besagten Client-seitigen Spracherkennungsergebniskandidaten und besagter Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten auf einer Basis von besagtem Client-seitigen Spracherkennungsergebniskandidaten, besagter Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten, dem Erkennungsergebnis, das von besagtem Erkennungsergebniskandidatenkomparator bereitgestellt wird, und der Äußerungsregel, die von besagtem Eingaberegeldeterminator festgelegt wird, integriert.
VORTEILE DER ERFINDUNG
In Übereinstimmung mit der vorliegenden Erfindung kann die Verzögerungszeit reduziert werden, welche verstrichen ist, bis Spracherkennungsergebnisse erfasst sind, seitdem eine Sprache eingegeben wurde, und ein Spracherkennungsergebnis kann mit einem hohen Genauigkeitsgrad ausgewählt werden.
Figurenliste

[1] 1 ist ein Blockdiagramm, das die Konfiguration eines Spracherkennungssystems in Übereinstimmung mit Ausführungsform 1 zeigt;
[2] 2 ist ein Flussdiagramm, das Operationen des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 1 zeigt;
[3] 3 ist ein Diagramm, das ein Beispiel der Generierung eines Spracherkennungsergebnisses durch das Spracherkennungssystem in Übereinstimmung mit Ausführungsform 1 zeigt;
[4] 4 ist ein Blockdiagramm, das die Konfiguration eines Spracherkennungssystems in Übereinstimmung mit Ausführungsform 2 zeigt;
[5] 5 ist ein Flussdiagramm, das Operationen des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 2 zeigt;
[6] 6 ist ein Diagramm, das ein Beispiel der Generierung eines Spracherkennungsergebnisses durch das Spracherkennungssystem in Übereinstimmung mit Ausführungsform 2 zeigt;
[7] 7 ist ein Diagramm, das ein Beispiel des Speicherns von Äußerungsregelmustern des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 2 zeigt; [8] 8 ist ein Blockdiagramm, das die Konfiguration eines Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3 zeigt;
[9] 9 ist ein Flussdiagramm, das erste und dritte Operationen des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3 zeigt;
[10] 10 ist ein Diagramm, das ein Beispiel des Speicherns in einem Spracheingabe/Erkennungsergebnisspeicher des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3 zeigt;
[11] 11 ist ein Flussdiagramm, das eine zweite Operation des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3 zeigt;
[12] 12 ist ein Diagramm, das eine Datenbank zum Korrigieren des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3 zeigt;
[13] 13 ist ein Flussdiagramm, das Operationen eines Spracherkennungssystems in Übereinstimmung mit Ausführungsform 4 zeigt;
[14] 14 ist ein Diagramm, das ein Beispiel der Generierung eines Spracherkennungsergebnisses durch das Spracherkennungssystem in Übereinstimmung mit Ausführungsform 4 zeigt;
[15] 15 ist ein Diagramm, das ein Beispiel des Speicherns von Äußerungsregelmustern des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 4 zeigt;
[16] 16 ist ein Diagramm, das ein Beispiel der Generierung eines Spracherkennungsergebnisses von einem Spracherkennungssystem in Übereinstimmung mit Ausführungsform 5 zeigt;
[17] 17 ist ein Diagramm, das ein Beispiel der Generierung eines Spracherkennungsergebnis von einem Spracherkennungssystem in Übereinstimmung mit Ausführungsform 6 zeigt;
[18] 18 ist ein Diagramm, das ein Beispiel des Speicherns von Äußerungsregelmustern des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 6 zeigt; [19] 19 ist ein Diagramm, das ein Beispiel des Speicherns in einem Spracheingabe/Erkennungsergebnisspeicher eines Spracherkennungssystems in Übereinstimmung mit Ausführungsform 7 zeigt;
[20] 20 ist ein Diagramm, das eine Datenbank zum Korrigieren des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 7 zeigt;
[21] 21 ist ein Diagramm, das ein Beispiel der Generierung eines Spracherkennungsergebnis von einem Spracherkennungssystem in Übereinstimmung mit Ausführungsform 8 zeigt; und
[22] 22 ist ein Diagramm, das ein Beispiel des Speicherns von Äußerungsregelmustern des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 8 zeigt.

AUSFÜHRUNGSFORMEN DER ERFINDUNG
Nachstehende werden, um dieser Erfindung in größerem Detail zu erläutern, die bevorzugten Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die beigelegten Zeichnungen beschrieben.
Ausführungsform 1.
1 ist ein Blockdiagramm, dass die Konfiguration eines Spracherkennungssystems in Übereinstimmung mit Ausführungsform 1 der vorliegenden Erfindung zeigt.
Das Spracherkennungssystem ist aus einem Spracherkennungs-Server (Server-Gerät) 100 und einem Spracherkennungsgerät 200 aufgebaut.
Der Spracherkennungs-Server 100 schließt einen Empfänger (Server-seitigen Empfänger) 101 ein, einen Server-seitigen Spracherkenner 102, und einen Übermittler (Server-seitigen Übermittler) 103, und hat eine Funktion des Durchführens einer Spracherkennung auf Sprachdaten, die von dem Spracherkennungsgerät 200 empfangen werden, und eines Übermittelns eines Spracherkennungsergebnisses an das Spracherkennungsgerät 200. Der Empfänger 101 empfängt Sprachdaten von dem Spracherkennungsgerät 200. Der Server-seitige Spracherkenner 102 führt eine Spracherkennung auf den Sprachdaten durch, die von dem Empfänger 101 empfangen werden, und generiert einen Server-seitigen Spracherkennungsergebniskandidaten. Der Übermittler 103 übermittelt den Server-seitigen Spracherkennungsergebniskandidaten, der von dem Server-seitigen Spracherkenner 102 generiert wird, an das Spracherkennungsgerät 200.
Das Spracherkennungsgerät 200 schließt einen Spracheingeber 201, einen Client-seitigen Spracherkenner 202, einen Übermittler (Client-seitigen Übermittler) 203, einen Empfänger (Client-seitigen Empfänger) 204, einen Erkennungsergebniskandidatenkomparator 205, einen Erkennungsergebnisintegrator 206, und einen Ausgeber 207 auf, und hat eine Funktion des Durchführens einer Spracherkennung auf Sprachdaten, die über ein Mikrofon oder dergleichen darin eingegeben werden, und eines Ausgeben eines Spracherkennungsergebnisses. Der Spracheingeber 201 konvertiert eine von einem Nutzer über das Mikrofon oder der gleichen darin eingegebene, geäußerte Sprache in Sprachdaten, welche ein Datensignal sind. Der Client-seitige Spracherkenner 202 führt eine Spracherkennung auf den Sprachdaten durch, die von dem Spracheingeber 201 konvertiert werden, und generiert einen Client-seitigen Spracherkennungsergebniskandidaten. Der Übermittler 203 übermittelt die Sprachdaten, die von dem Spracheingeber 201 darin eingegeben werden, an den Spracherkennungs-Server 100. Der Empfänger 204 empfängt den Server-seitigen Spracherkennungsergebniskandidaten, der von dem Spracherkennungs-Server 100 daran übermittelt wird.
Der Erkennungsergebniskandidatenkomparator 205 vergleicht Textinformationsteile, die in einer Vielzahl von Server-seitigen Spracherkennungsergebniskandidaten enthalten sind, die von dem Spracherkennungs-Server 100 über den Empfänger 204 daran übermittelt werden, um partielle Texte zu erkennen, die einen Unterschied aufweisen. Der Erkennungsergebnisintegrator 206 integriert die Spracherkennungsergebniskandidaten auf der Basis des Client-seitigen Spracherkennungsergebniskandidaten, der von dem Client-seitigen Spracherkenner 202 generiert wird, den Server-seitigen Spracherkennungsergebniskandidaten, die von dem Empfänger 204 empfangen werden, und einem Erkennungsergebnis, das von dem Erkennungsergebniskandidatenkomparator 205 bereitgestellt wird, um über ein Spracherkennungsergebnis zu entscheiden. Der Ausgeber 207 gibt das Spracherkennungsergebnis, über das von dem Erkennungsergebnisintegrator 206 entschieden wird, an ein aus, wie einen Bildschirm oder einen Lautsprecher aus.
Als nächstes werden Operationen des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 1 unter Bezugnahme auf 2 und 3 erläutert.
2 ist eine Flussdiagrammen, dass die Operationen des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 1 der vorliegenden Erfindung zeigt, und 3 ist ein Diagramm, das ein Beispiel der Generierung eines Spracherkennungsergebnisses durch das Spracherkennungssystem in Übereinstimmung mit Ausführung von 1 der vorliegenden Erfindung zeigt.
Wenn eine von einem Nutzer geäußerte Sprache eingegeben wird (Schritt ST1), konvertiert der Spracheingeber 201 des Spracherkennnungsgeräts 200 die eingegebene Sprache in Sprachdaten, und gibt die so konvertierten Sprachdaten an den Client-seitigen Spracherkenner 202 und den Übermittler 203 aus (Schritt ST2). Der Übermittler 203 übermittelt die darin eingegebenen Sprachdaten in Schritt ST2 an den Spracherkennungs-Server 100 (Schritt ST3).
Bei dem Spracherkennungs-Server 100 empfängt der Empfänger 101 die in Schritte ST3 übermittelten Sprachdaten und gibt die so empfangenen Sprachdaten an den Server-seitigen Spracherkenner 101 aus (Schritt ST4). Der Server-seitige Spracherkenner 102 führt in Schritt ST4 eine Spracherkennung auf den daran eingegebenen Sprachdaten aus, und generiert einen Server-seitigen Spracherkennungsergebniskandidaten (Schritt ST5). Der Übermittler 103 übermittelt Textinformation des Server-seitigen Spracherkennungsergebniskandidaten, der in Schritt ST5 generiert wird, an das Spracherkennungsgerät 200 (Schritt ST6).
Zum Beispiel stellt der Server-seitige Spracherkenner 102 ein willkürliches Dokument als ein zu erkennendes Objekt ein und führt eine Spracherkennung auf den Sprachdaten „

(mokutekichi (Ziel), Ofuna tokei senmonten ni setteisuru)“ aus, die von dem Spracherkennungsgerät 200 empfangen werden, und erfasst eine Server-seitige Spracherkennungsergebniskandidatenliste 303, welche in 3 gezeigt ist, und welche „

(mokutekichi wo Ofuna tokei senmonten ni setteisuru)“ einschließt, welches ein-Server-seitiger Spracherkennungsergebniskandidat 301 ist, und „
(mokutekichi wo hofuna tokei senmonten ni setteisuru)“, welches ein Server-seitiger Spracherkennungsergebniskandidat 302 ist. Der Übermittler 101 übermittelt die Server-seitige Spracherkennungsergebniskandidatenliste 303 an das Spracherkennungsgerät 200.
Auf der anderen Seite führt in dem Spracherkennungsgerät 200 der Client-seitige Spracherkenner 202 eine Spracherkennung auf den Sprachdaten aus, die daran in ST2 eingegeben werden, und generiert einen Client-seitigen Spracherkennungsergebniskandidaten, und gibt Textinformation des erfassten Client-seitigen Spracherkennungsergebniskandidaten an den Erkennungsergebnisintegrator 206 aus (Schritt S7).
Zum Beispiel erkennt in einem Fall, in welchem der Client-seitige Spracherkenner 202 nur einen Befehl für Sprachoperation und Daten über den Namen eines Orts in der Nähe der aktuellen Position als ein zu erkennendes Objekt einstellt, wenn ein Nutzer eine Spracheingabe von „
(mokutekichi (Ziel), Ofuna tokei senmonten ni setteisuru)“ macht, der Client-seitige Spracherkenner 202 „
(mokutekichi (Ziel))“, welches ein Sprachoperationsbefehl ist, und „
(Ofuna tokei senmonten (Ofuna Uhrenfachgeschäft))“, welches Daten über den Namen eines Orts in der Nähe der aktuellen Position sind, und erfasst eine Client-seitige Spracherkennungsergebniskandidatenliste 305, welche in 3 gezeigt ist, und „
(mokutekichi (Ziel), Ofuna tokei senmonten ni setteisuru)“ einschließt, welches ein Client-seitiger Spracherkennungsergebniskandidat 304 ist. In dem Beispiel der 3 besteht die Client-seitige Spracherkennungsergebniskandidatenliste 305 nur aus dem einzigen Client-seitigen Spracherkennungsergebniskandidaten 304.
Weiterhin gibt, beim Empfangen des Server-seitigen Spracherkennungsergebniskandidaten, der in Schritt ST6 von dem Spracherkennungssoftware 100 übermittelt wird, der Empfänger 204 des Spracherkennnungsgeräts 200 den so empfangenen Server-seitigen Spracherkennungsergebniskandidaten an den Erkennungsergebniskandidatenkomparator 205 und den Erkennungsergebnisintegrator 206 aus (Schritt ST8). Der Erkennungsergebniskandidatenkomparator 205 bestimmt, ob der Server-seitige Spracherkennungsergebniskandidat, der daran in Schritt ST8 eingegeben wird, eine Vielzahl von Spracherkennungsergebniskandidaten einschließt (Schritt ST9).
Wenn eine Vielzahl von Spracherkennungsergebniskandidaten enthalten sind (bei JA in Schritt ST9), vergleicht der Erkennungsergebniskandidatenkomparator 205 die Texte der Spracherkennungsergebniskandidaten, um partielle Texte zu erkennen, die einen Unterschied aufweisen (Schritt ST10). Der Erkennungsergebniskandidatenkomparator 205 bestimmt, ob er partielle Texte erkannt hat, die einen Unterschied aufweisen, (Schritt ST11), und gibt beim Erkennen von partiellen Texten, die einen Unterschied aufweisen (bei JA in Schritt ST11), die partiellen Texte, die einen Unterschied aufweisen, als ein Erkennungsergebnis an den Erkennungsergebnisintegrator 206 aus (Schritt ST12).
Zum Beispiel sind in dem Beispiel der 3 die zwei Server-seitigen Spracherkennungsergebniskandidaten 301 und 302 in der Server-seitigen Spracherkennungsergebniskandidatenliste 303 enthalten, und der Sprachergebniskandidatenkomparator vergleicht „
(mokutekichi wo Ofuna tokei senmonten ni setteisuru)“ und „
(mokutekichi wo hofuna tokei senmonten ni setteisuru)“, welches die Textinformationsteile der Kandidaten sind, und erkennt Anteile, jeder eingeschlossen zwischen dem führenden Text „
(mokutekichi wo)“ und dem angehängten Text „
(senmonten ni setteisuru)“ als partielle Texte, die einen Unterschied aufweisen. Konkret erkennt der Erkennungsergebniskandidatenkomparator „
(Ofuna tokei)“ in dem Server-seitigen Spracherkennungsergebniskandidaten 301, und „
(hofuna tokei)“ in dem Server-seitigen Spracherkennungsergebniskandidaten 302 als partielle Texte, die einen Unterschied aufweisen.
Dagegen gibt, wenn eine Vielzahl von Spracherkennungsergebniskandidaten nicht eingeschlossen sind (bei Nein in Schritt ST9), und wenn partielle Texte, die einen Unterschied aufweisen, nicht erkannt werden (bei Nein in Schritt ST11), der Erkennungsergebniskandidatenkomparator eine Nichterkennung eines Unterschieds an den Erkennungsergebnisintegrator 206 als ein Erkennungsergebnis aus (Schritt ST13).
Zum Beispiel entdeckt in dem Beispiel von 3, wenn nur der Server-seitige Spracherkennungsergebniskandidat 301 in der Server-seitigen Spracherkennungsergebniskandidatenliste 303 eingeschlossen ist, der Erkennungsergebniskandidatenkomparator keine partiellen Texte, die einen Unterschied aufweisen.
Der Erkennungsergebnisintegrator 206 bezieht sich auf die Erkennungsergebnisse, die daran in Schritt ST12 oder ST13 eingegeben werden, und bestimmt, ob partielle Texte vorhanden sind, die einen Unterschied aufweisen (Schritt ST14). Wenn partielle Texte vorhanden sind, die einen Unterschied aufweisen (bei JA in Schritt ST14), ersetzt der Erkennungsergebnisintegrator 206 die Textinformation eines partiellen Textes, der einen Unterschied aufweist, mit Textinformation des Client-seitigen Spracherkennungsergebniskandidaten, der in Schritt ST7 generiert wird, um ein Spracherkennungsergebnis festzustellen (Schritt ST15). Danach gibt der Erkennungsergebnisintegrator dieses Spracherkennungsergebnis an den Ausgeber 207 aus.
Zum Beispiel wird in dem Beispiel von 3, wenn der partielle Text „
(Ofuna tokei)“ in dem Server-seitigen Spracherkennungsergebniskandidaten 301, und der partielle Text „
(hofuna tokei)“, von denen jeder zwischen dem führenden Text „
(mokutekichi wo)“ und dem angehängten Text „
(senmonten ni setteisuru)“ eingeschlossen ist, als partielle Texte erkannt werden, die einen Unterschied aufweisen, eine Suche durchgeführt, ob ein partieller Text, der mit „
(mokutekichi wo)“ übereinstimmt, und ein partieller Text, der mit „
(senmonten ni setteisuru)“ übereinstimmt, in der Client-seitigen Spracherkennungsergebniskandidaten 304 vorhanden sind. Keiner der partiellen Texte ist in dem Beispiel der 3 enthalten. In diesem Fall werden die zu suchenden partiellen Texte entsprechend partiell auf welche wie „
(mokutekichi)“ und „
(senmonten)“ gekürzt, und es wird eine wiederholte Suche unter Verwenden der gekürzten partiellen Texte durchgeführt. In dem Beispiel von 3 wird als ein Ergebnis der wiederholten Suche „
(, Ofuna tokei)“ aufgefunden, welches zwischen „
(mokutekichi)“ und „
(senmonten)“ eingeschlossen ist. Danach wird „
(wo Ofuna tokei)“, eingeschlossen zwischen„
(mokutekichi)“ und „
(senmonten) “, in dem Server-seitigen Spracherkennungsergebniskandidaten 301 ersetzt durch „,
(, Ofuna tokei) “, welches aufgefunden wird, und es wird ein Spracherkennungsergebnis 306

(mokutekichi (Ziel), Ofuna tokei senmonten ni setteisuru)“ erfasst.
Dagegen bestimmt, beim Feststellen, dass keine partiellen Texte vorliegen, die einen Unterschied aufweisen, (bei NEIN in Schritt ST14), der Erkennungsergebnisintegrator 206 den Server-seitigen Spracherkennungsergebniskandidaten, welchen der Empfänger 204 in Schritt ST8 empfängt, als ein Spracherkennungsergebnis (Schritt ST17), und gibt dieses Spracherkennungsergebnis an den Ausgeber 207 aus (Schritt S16). Bei dem Spracherkennungssystem in Übereinstimmung mit der vorliegenden Erfindung wird die vorstehend erwähnte Verarbeitung zu allen Zeiten wiederholt durchgeführt.
Wie vorstehend erwähnt ist, da das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 1 in solch einer Art aufgebaut ist, dass es, beim Erfassen einer Vielzahl von Server-seitigen Spracherkennungsergebniskandidaten von dem Spracherkennungs-Server 100, die Texte dieser Server-seitigen Spracherkennungsergebniskandidaten zum Erkennen partieller Texte, die einen Unterschied aufweisen, vergleicht, und einen erkannten partiellen Text, der einen Unterschied aufweist, mit einem partiellen Text des Client-seitigen Spracherkennungsergebniskandidaten, der von dem Spracherkennungsgerät 200 generiert wird, ersetzt, um ein endgültiges Spracherkennungsergebnis zu bestimmen, selbst wenn das Spracherkennungssystem einen Spracherkennungs-Server verwendet, bei welchem ein Berechnungsverfahren eines numerischen Werts (Erkennungspunktezahl), welcher die Genauigkeit eines Spracherkennungsergebnisses zeigt, unbekannt ist, das Spracherkennungssystem einen Spracherkennungsergebniskandidaten, der von der Server-Seite bereitgestellt wird, und den Spracherkennungsergebniskandidaten, der von der Client-seite bereitgestellt wird, ohne ein Verwenden von Erkennungspunktezahlen integrieren kann, und ein genaueres Spracherkennungsergebnis ausgibt.
Weiterhin können, da das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 1 so aufgebaut ist, dass es den Erkennungsergebniskandidatenkomparator 205 einschließt, der die Texte der Server-seitigen Spracherkennungsergebniskandidaten vergleicht, um partielle Texte zu erkennen, die einen Unterschied aufweisen, ohne einen komplizierten syntaktischen Analyseprozess und eine wiederholte Berechnung der Erkennungspunktezahlen durchzuführen, und den Erfassungsergebniskomparator 206, der einen partiellen Text ersetzt, der einen Unterschied aufweist, die Funktionen des Spracherkennnungsgeräts implementiert werden, während die Verarbeitungslast auf einer CPU niedrig gehalten wird.
Zudem kann, da das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 1 in solch einer Art aufgebaut ist, dass das Spracherkennungsgerät 200 die Sprachdaten an den Spracherkennungs-Server 100 zur gleichen Zeit übermittelt, zu der das Spracherkennungsgerät die Sprachdaten an dem Client-seitigen Spracherkenner 202 eingibt, verglichen mit einem Übertragungsverfahren der Sprachdaten an den Spracherkennungs-Server 100, nachdem das Spracherkennungsgerät 200 einen Client-seitigen Spracherkennungsergebniskandidaten erfasst, ein Spracherkennungsergebnis zu einer früheren Zeit von dem Spracherkennungs-Server 100 erfasst werden, und die Verzögerungszeit, welche verstrichen ist, bis das Spracherkennungsgerät entscheidet und ein Spracherkennungsergebnis ausgibt, kann verkürzt werden.
Obwohl in vorstehend erwähnter Ausführungsform 1 das Spracherkennungssystem in der Art aufgebaut ist, dass es, wenn eine Vielzahl von Server-seitigen Spracherkennungsergebniskandidaten von dem Spracherkennungs-Server 100 erfasst werden, die Texte der Server-seitigen Spracherkennungsergebniskandidaten vergleicht, um partielle Texte zu erkennen, die einen Unterschied aufweisen, und einen partiellen Text unter Verwenden des Vorhandenseins oder Nicht-Vorhandenseins des Unterschieds als einem Bestimmungskriterium zu ersetzen, wobei das Spracherkennungssystem alternativ die Anzahl von Server-seitigen Spracherkennungsergebniskandidaten, welche einen Unterschied aufweisen, und den Typ dieses Unterschieds als ein Bestimmungskriterium nutzen kann.
Zum Beispiel wird, wenn drei Kandidaten als die Server-seitigen Spracherkennungsergebniskandidaten vorhanden sind, und alle drei partiellen Texte, die einen Unterschied aufweisen, sich voneinander unterscheiden, die Zuverlässigkeit auf 1/3 bestimmt, während wenn die partiellen Texte, die einen Unterschied aufweisen, der in nur einem Kandidaten eingeschlossen ist, sich von den anderen partiellen Texten unterscheiden, die Zuverlässigkeit auf 2/3 bestimmt. Das Spracherkennungssystem ist in solch einer Art aufgebaut, dass es nur einen partiellen Text ersetzt, dessen bestimmte Zuverlässigkeit gleich oder kleiner als 1/3 zu einem Text der Client-seitigen Spracherkennungsergebniskandidaten ist, die von dem Client-seitigen Spracherkenner 202 bereitgestellt werden.
Im Ergebnis kann die Spracherkennungsgenauigkeit verbessert werden und eine genaueres Spracherkennungsergebnis erfasst werden.
Weiterhin kann, obwohl die Konfiguration, in welcher, wenn eine Vielzahl von Server-seitigen Erkennungsergebniskandidaten erfasst werden, das Spracherkennungssystem die Texte der Server-seitigen Spracherkennungsergebniskandidaten vergleicht, um nur partielle Texte zu erkennen, die einen Unterschied aufweisen, und an einer einzigen Position vorhanden sind, in vorstehend erläuterter Ausführungsform 1 gezeigt ist, eine Konfiguration bereitgestellt werden, bei welcher, wenn partielle Texte vorhanden sind, die einen Unterschied an zwei oder mehr Positionen aufweisen, bestimmt wird, dass die Zuverlässigkeit der gesamten Server-seitigen Spracherkennungsergebniskandidaten niedrig ist, und der Nutzer aufgefordert wird, wiederholt eine Sprache einzugeben.
Im Ergebnis kann das Spracherkennungssystem verhindern, dass ein falsches Spracherkennungsergebnis ausgegeben wird.
Zudem kann, obwohl die Konfiguration, bei welcher, wenn eine Vielzahl von Server-seitigen Spracherkennungsergebniskandidaten von dem Spracherkennungs-Server 100 erfasst werden, das Spracherkennungssystem einen Anteil ersetzt, der einen Unterschied in dem Text eines Server-seitigen Spracherkennungsergebniskandidaten zu einem Text des Client-seitigen Spracherkennungsergebniskandidaten aufweist, in vorstehend erwähnter Ausführungsform 1 gezeigt ist, eine Konfiguration bereitgestellt werden, bei welcher der Client-seitige Spracherkenner 202 eine Erkennungspunktezahl berechnet, und ein Ersetzen des Textes nur durchgeführt wird, wenn die berechnete Erkennungspunktezahl gleich oder größer als ein vorherbestimmter Grenzwert ist.
Im Ergebnis kann die Spracherkennungsgenauigkeit verbessert werden und ein genaueres Spracherkennungsergebnis kann erfasst werden.
Ausführungsform 2.
Obwohl die Konfiguration, in welcher das Spracherkennungssystem Texte von Server-seitigen Spracherkennungsergebniskandidaten vergleicht und einen partiellen Text, der einen Unterschied aufweist, durch einem Client-seitigen Spracherkennungsergebniskandidaten ersetzt, in der vorstehend erwähnten Ausführungsform gezeigt ist, wird in dieser Ausführungsform 2 eine Konfiguration gezeigt, in welcher der Text eines Server-seitigen Spracherkennungsergebniskandidaten durch Verwenden eines partiellen Textes geteilt wird, der einen Unterschied als eine Referenz aufweist, und Kombinieren eines Textes nach Teilung und Daten basierend auf einem Client-seitigen Spracherkennungsergebniskandidaten.
4 ist ein Blockdiagramm, das die Konfiguration eines Spracherkennungssystems in Übereinstimmung mit Ausführungsform 2 der vorliegenden Erfindung zeigt. Das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 2 ist auch mit einem Spracherkennungs-Server 101 Spracherkennungsgerät 200' ausgestattet. Das Spracherkennungsgerät 200' in Übereinstimmung mit Ausführungsform 2 schließt einen Eingaberegeldeterminator 211 und einen Eingaberiegel Speicher 212 zusätzlich zu den Komponenten des in 1 gezeigten Spracherkennnungsgeräts 201. Nachstehend sind die gleichen Komponenten wie die des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 1 oder ähnliche Komponenten durch die gleichen Bezugsziffern wie die in 1 verwendeten bezeichnet, und die Erläuterungen der Komponenten wird weggelassen oder vereinfacht.
Der Eingaberegeldeterminator 211 extrahiert ein Schlüsselwort von einem Client-seitigen Spracherkennungsergebniskandidaten, der von einem Client-seitigen Spracherkenner 202 generiert wird, und bestimmt eine Äußerungsregel der eingegebenen Sprache. Der Eingaberegel Speicher 212 ist eine Datenbank, die Äußerungsregelmustern der eingegebenen Sprache speichert. Ein Erkennungsergebnisintegrator 206' integriert Spracherkennungsergebniskandidaten auf der Basis des Client-seitigen Spracherkennungsergebniskandidaten, der von dem Client-seitigen Spracherkenner 202 generiert wird, einem Server-seitigen Spracherkennungsergebniskandidaten, der von einem Empfänger 204 empfangen wird, einem Erkennungsergebnis, das von einem Erkennungsergebniskandidatenkomparator 205 bereitgestellt wird, und der Äußerungsregel, die von dem Eingaberegeldeterminator 211 bestimmt wird, um über ein Spracherkennungsergebnis zu entscheiden.
Als nächstes werden Operationen des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 1 unter Bezugnahme auf 5 bis 7 erläutert.
5 ist ein Flussdiagrammen, das die Operationen des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 2 der vorliegenden Erfindung zeigt, 6 ist ein Diagramm, das ein Beispiel der Generierung eines Spracherkennungsergebnisses durch das Spracherkennungssystem in Übereinstimmung mit Ausführungsform 2 zeigt, und 7 ist ein Diagramm, das ein Beispiel der Speicherung der Äußerungsregelmuster des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 2 zeigt. In dem Flussdiagramm von 5 sind die gleichen Schritte wie die des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 1 durch die gleichen Bezugszeichen wie die in 2 gezeigten bezeichnet, und die Erläuterung der Schritte wird weggelassen oder vereinfacht.
Als erstes führt das Spracherkennungsgerät 200' Prozesse von Schritten ST1, ST2 und ST7 durch, und führt eine Spracherkennung auf eingegebene Sprachdaten durch, wie die in Übereinstimmung mit Ausführungsform 1.
Zum Beispiel führt, wenn der Client-seitige Spracherkenner 202 nur einen Sprachoperationsbefehl als ein zu erkennendes Objekt setzt, der Client-seitige Spracherkenner eine Spracherkennung auf die Sprachdaten „

(Mêru (Mail), jyutai de töchaku ga okuremasu.)“ durch, welche von einem Nutzer eingegeben werden, und erfasst in dem Beispiel, das in 6 gezeigt ist, einen einzigen Client-seitigen Spracherkennungsergebniskandidaten „
Mêru (Mail)“. In dem Beispiel von 6 besteht eine Client-seitige Spracherkennungsergebnisliste 405 aus dem einzigen Client-seitigen Spracherkennungsergebniskandidaten 404. Der erfasste Client-seitige Spracherkennungsergebniskandidat wird an den Erkennungsergebnisintegrator 206' und den Eingaberegeldeterminator 211 ausgegeben.
Als nächstes bezieht sich der Eingaberegeldeterminator 211 auf beides, den Client-seitigen Spracherkennungsergebniskandidaten, der daran von dem Client-seitigen Spracherkenner 202 eingegeben wird, und die Äußerungsregelmuster, die in dem Eingaberegelspeicher 212 gespeichert sind, um einen Sprachoperationsbefehl zu verifizieren, und bestimmt die Äußerungsregel der Sprachdaten, die in Schritt ST1 eingegeben werden (Schritt ST21).
Wie in 7 gezeigt, besteht jedes Äußerungsregelmuster 500, das in dem Eingaberegelspeicher 212 gespeichert ist, aus einem Sprachoperationsbefehl 501 und einer Äußerungsregel 502 der eingegebenen Sprache. Es wird in der Figur gezeigt, dass zum Beispiel, wenn der Sprachoperationsbefehl 501 „
(mêru (mail)) “ ist, „Befehl (
(mêru (mail))) + freier Satz“ als die Äußerungsregel 502 der eingegebenen Sprache erfasst wird.
Wenn der Client-seitige Spracherkennungsergebniskandidat 404 wie in 6 gezeigt „/ (mêru (mail))“ ist, erfasst der Eingaberegeldeterminator 211 „Befehl + freier Satz“, welches die Äußerungsregel 502 der eingegebenen Sprache entsprechend zu „
(mêru (mail)) “ ist, welches der übereinstimmende Sprachoperationsbefehl 501 ist, und die erfasste Äußerungsregel der eingegebenen Sprache wird an den Erkennungsergebnisintegrator 206' ausgegeben.
Auf der anderen Seite führt der Spracherkennungs-Server 100 die gleichen Prozesse wie die von Schritten ST4 bis ST6 durch, und übermittelt einen Server-seitigen Spracherkennungsergebniskandidaten, der daran erfasst wurde, an das Spracherkennungsgerät 200'.
Zum Beispiel führt, wenn ein Server-seitiger Spracherkenner 102 ein willkürliches Dokument als ein zu erkennendes Objekt setzt, der Server-seitige Spracherkenner eine Spracherkennung auf den empfangenen Sprachdaten „

(Mêru (Mail), jyutai de töchaku ga okuremasu.)“ durch, und erfasst einen Server-seitigen Spracherkennungsergebniskandidaten 401 „

(Meiru, jyutai de töchaku ga okuremasu)“ und einen Server-seitigen Spracherkennungsergebniskandidaten 402 „

(Mieru, jyutai de töchaku ga okuremasu) .“ Als eine Server-seitige Spracherkennungsergebniskandidatenliste 403 werden die zwei erfassten Server-seitigen Spracherkennungsergebniskandidaten 401 und 402 an das Spracherkennungsgerät 200' ausgegeben.
Als nächstes führt das Spracherkennungsgerät 200' Prozesse von Schritten ST8 bis ST13 durch. Bei der Erkennung von partiellen Texten in Schritt ST10, die einen Unterschied aufweisen, wie beispielsweise durch Heranziehen des Falls von 6 erläutert wird, vergleicht das Spracherkennungsgerät den Server-seitigen Spracherkennungsergebniskandidaten 401 „
(Meiru, jyutai de töchaku ga okuremasu) “ und den Server-seitigen Spracherkennungsergebniskandidaten 402 „
(Mieru, jyutai de töchaku ga okuremasu)“ in der Server-seitigen Spracherkennungsergebniskandidatenliste 403, und erkennt „
(Meiru)“ und „

(Mieru)“ als partielle Texte, die einen Unterschied aufweisen. Das Erkennungsergebnis wird an den Erkennungsergebnisintegrator 206' ausgegeben.
Der Erkennungsergebnisintegrator 206' bestimmt, ob es notwendig ist oder nicht, eine Textteilung auf einen Server-seitigen Spracherkennungsergebniskandidaten auf der Basis des in Schritt ST7 durch den Client-seitigen Spracherkenner 202 generierten Client-seitigen Spracherkennungsergebniskandidaten durchzuführen, der in Schritt ST21 durch den Eingaberegeldeterminator 211 bestimmten Äußerungsregel, dem in Schritt ST8 von dem Empfänger 204 empfangenen Server-seitigen Spracherkennungsergebniskandidaten, und dem Ergebnis der Erkennung eines Unterschieds, welcher in Schritt ST12 oder ST13 von dem Erkennungsergebniskandidatenkomparator 205 eingegeben wird (Schritt ST22).
In den Beispielen von 6 und 7 wird, wenn der Client-seitige Spracherkennungsergebniskandidat 404 „
(mêru (mail))“ eingegeben wird, der von dem Client-seitigen Spracherkenner 202 bereitgestellt wird, und die Server-seitige Spracherkennungsergebniskandidatenliste 403 von dem Empfänger 204 eingegeben wird, welche aus dem Server-seitigen Spracherkennungsergebniskandidaten 401 und 402 besteht, da „
(mêru (mail))“ nicht in den Texten der Server-seitigen Spracherkennungsergebniskandidaten 401 und 402 enthalten ist, die von dem Eingaberegeldeterminator 211 eingegebene Eingaberegel „Befehl + freier Satz“ wird, und das Erkennungsergebnis, das zeigt, dass ein Unterschied erkannt ist, von dem Erkennungsergebniskandidatenkomparator 205 eingegeben wird, festgestellt, dass es notwendig ist, den Text zu teilen.
Wenn es erforderlich ist, eine Textteilung auf einen Server-seitigen Spracherkennungsergebniskandidaten durchzuführen (bei JA in Schritt ST42), führt der Erkennungsergebnisintegrator 206' eine Textteilung auf den Text eines Server-seitigen Spracherkennungsergebniskandidaten durch, der von dem Empfänger 204 empfangen wird, unter Verwenden eines partiellen Textes, der als eine Referenz einen Unterschied aufweist (Schritt ST23).
Da bezüglich des Textes des Server-seitigen Spracherkennungsergebniskandidaten 401 „
(meiru)“ als ein partieller Text erkannt wird, der bei dem in 6 gezeigten Beispiel einen Unterschied aufweist, wird der Text in zwei Texte geteilt: „
(meiru)“ und „
(jyutai de töchaku ga okuremasu).“
Als nächstes kombiniert der Erkennungsergebnisintegrator 206' einen Text nach Teilung von Schritt ST23 und dem Sprachoperationsbefehl, welcher dem Client-seitigen Spracherkennungsergebniskandidaten auf der Basis der Äußerungsregel entspricht, die von dem Eingaberegeldeterminator 211 eingegeben wird, und gibt ein kombiniertes Ergebnis als ein Spracherkennungsergebnis an den Ausgeber 207 aus (Schritt ST24) .
Bei dem in 6 gezeigten Beispiel wird „

(Mêru (Mail), jyutai de töchaku ga okuremasu)“, welches durch Kombinieren des Sprachoperationsbefehls „
(mêru (mail)) “ und eines Textes nach Teilung „

(jyutai de töchaku ga okuremasu) “ erfasst wird, welcher einem freien Satz auf der Basis der Äußerungsregel „Befehl + freier Satz“ entspricht, als ein Spracherkennungsergebnis bereitgestellt.
Dagegen bestimmt, wenn es nicht erforderlich ist, eine Textteilung auf einen Server-seitigen Spracherkennungsergebniskandidaten durchzuführen (bei NEIN in Schritt ST42), der Erkennungsergebnisintegrator 206' den Spracherkennungsergebniskandidaten, der in Schritt ST8 empfangen wird, als ein Spracherkennungsergebnis (Schritt ST25), und gibt dieses Spracherkennungsergebnis an den Ausgeber 207 aus (Schritt ST16) .
Wenn der Text des Client-seitigen Spracherkennungsergebniskandidaten, der von dem Client-seitigen Spracherkenner 202 eingegeben wird, in einem Server-seitigen Spracherkennungsergebniskandidaten enthalten ist, der von dem Empfänger 204 empfangen wird, bestimmt der Erkennungsergebnisintegrator 206', dass es nicht erforderlich ist, den Text zu teilen.
Weiterhin bestimmt, wenn die Äußerungsregel, die von dem Eingaberegeldeterminator 211 eingegeben wird, nur einen „Befehl“ aufweist, der Erkennungsergebnisintegrator, dass es nicht erforderlich ist, den Text zu teilen.
Zudem bestimmt, wenn das Erkennungsergebnis, das von dem Erkennungsergebniskandidatenkomparator 205 eingegeben wird, zeigt, dass kein Unterschied erkannt wird, der Erkennungsergebnisgenerator, dass es nicht erforderlich ist, den Text zu teilen.
Wie vorstehend erwähnt ist das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 2 in solch einer Art konfiguriert, dass es, wenn eine Vielzahl von Server-seitigen Spracherkennungsergebniskandidaten von dem Spracherkennungs-Server 100 erfasst werden, die Texte der Server-seitigen Spracherkennungsergebniskandidaten vergleicht, um partielle Texte zu erkennen, die einen Unterschied aufweisen, die Texte unter Verwenden eines partiellen Textes, der als eine Referenz einen Unterschied aufweist, und einen Text nach Teilung und den Text des Client-seitigen Spracherkennungsergebniskandidaten auf der Basis einer Äußerungsregel kombiniert, selbst wenn das Spracherkennungssystem einen Spracherkennungs-Server verwendet, bei welchem ein Berechnungsverfahren (Erkennungspunktezahl) unbekannt ist, welches die Genauigkeit eines Spracherkennungsergebnisses zeigt, das Spracherkennungssystem einen Spracherkennungsergebniskandidaten integrieren kann, der von der Server-Seite bereitgestellt wird, und einen Spracherkennungsergebniskandidaten, der von der Client-Seite bereitgestellt wird, ohne Erkennungspunktezahlen zu verwenden, und ein genaueres Spracherkennungsergebnis ausgibt.
Weiterhin kann, da das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 2 in einer solchen Art konfiguriert ist, dass es den Text unter Verwenden eines partiellen Textes, der als eine Referenz einen Unterschied aufweist, teilt, und einen Text nach einer Teilung und den Text des Client-seitigen Spracherkennungsergebniskandidaten kombiniert, selbst wenn der Spracherkennungs-Server keinen Sprachoperationsbefehl mit einem hohen Genauigkeitsgrad erkennen kann, das Spracherkennungssystem nur einen partiellen Text eines Dokuments ohne Verwenden des Textes eines Anteils verwenden, der einem Sprachoperationsbefehl entspricht, und ein genaueres Spracherkennungsergebnis ausgeben.
Zudem können, da das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 2 in einer solchen Art konfiguriert ist, dass es den Erkennungsergebniskandidatenkomparator 305 einschließt, der die Texte der Server-seitigen Spracherkennungsergebniskandidaten vergleicht, um partielle Texte zu erkennen, die einen Unterschied aufweisen, ohne einen komplizierten syntaktischen Analyseprozess und eine wiederholte Berechnung von Erkennungspunktezahlen durchzuführen, und der Erkennungsergebnisintegrator 206', der den Text unter Verwenden eines partiellen Textes teilt, der als eine Referenz einen Unterschied aufweist, und den Text des Client-seitigen Spracherkennungsergebniskandidaten kombiniert, die Funktionen des Spracherkennnungsgeräts implementiert werden, während die Verarbeitungslast auf einer CPU niedergehalten wird.
Weiterhin können, da das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 2 in einer solchen Art konfiguriert ist, dass es die Berechnungsanzahl ohne Durchführen einer komplizierten syntaktischen Analyse durch Vergleichen der Texte von Erkennungsergebnissen niederhält, um einen Anteil mit niedriger Zuverlässigkeit zu erkennen, die Funktionen des Spracherkennnungsgeräts 200' unter Verwenden einer CPU mit geringer arithmetischer Leistung implementiert werden.
Zudem kann, da das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 2 in einer solchen Art konfiguriert ist, dass das Spracherkennungsgerät 200' die Sprachdaten an den Spracherkennungs-Server 100 zu der gleichen Zeit übermittelt, wenn das Spracherkennungsgerät die Sprachdaten an den Client-seitigen Spracherkenner 202 eingibt, verglichen mit einem Übermittlungsverfahren der Sprachdaten an den Spracherkennungs-Server 100, nachdem das Spracherkennnungsgerät 200' einen Client-seitigen Spracherkennungsergebniskandidaten erfasst, ein Spracherkennungsergebnis zu einer früheren Zeit von dem Spracherkennungs-Server 100 erfasst werden, und die Verzögerungszeit, bis das Spracherkennungsgerät entscheidet und ein Spracherkennungsergebnis ausgibt, kann verkürzt werden.
Trotz des Beispiels, in welchem bei der vorstehend erwähnten Ausführungsform 2 gezeigt „nur Befehl“, „Befehl + freier Satz“ und „Befehl + Ortsname“ als die Äußerungsregelmuster aufgelistet sind, können die Positionen von Sprachoperationsbefehlen als Äußerungsregel nur auf den Kopf oder das Ende einer Äußerung beschränkt sein.
In diesem Fall kann, wenn ein Unterschied in Anteilen abweichend von den Köpfen oder den Enden Server-seitiger Spracherkennungsergebniskandidaten auftritt, bestimmt werden, dass ein Erkennungsfehler in einem Anteil abweichend von einem Sprachoperationsbefehl auftritt, und es wird möglich, auch eine Aufforderung des Nutzers zu machen, eine Sprache wiederholt einzugeben. Im Ergebnis kann das Spracherkennungssystem verhindern, dass ein falsches Sprachergebnis ausgegeben wird.
Obwohl die Konfiguration, in welcher der Eingaberegelspeicher 212 in dem Spracherkennungsgerät 200' angeordnet ist, in vorstehend erwähnter Ausführungsform 2 gezeigt ist, kann das Spracherkennungsgerät in solch einer Art konfiguriert sein, dass es ein extern gespeichertes Äußerungsregelmuster erfasst.
Ausführungsform 3.
Obwohl die Konfiguration, in welcher das Spracherkennungssystem die Texte von Server-seitigen Spracherkennungsergebniskandidaten vergleicht, und die Texte von einem Server-seitigen Spracherkennungsergebniskandidaten unter Verwenden eines partiellen Textes, der als eine Referenz einen Unterschied aufweist, teilt, in vorstehend erwähnter Ausführung von 2 gezeigt ist, wird in dieser Ausführungsform 3 eine Konfiguration gezeigt, in welcher ein Spracherkennungssystem eine Änderung eines Server-seitigen Spracherkennungsergebniskandidaten erkennt, und den Text zu jeder Zeit teilt.
8 ist ein Blockdiagramm, das die Konfiguration des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3 der vorliegenden Erfindung zeigt.
Das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 3 ist auch mit einem Spracherkennungs-Server 100 und einem Spracherkennungsgerät 200'' ausgestattet. Das Spracherkennungsgerät 200'' in Übereinstimmung mit Ausführungsform 3 schließt einen Erkennungsergebniskandidatenkorrektor 221 und einen Spracheingabe/Erkennungsergebnisspeicher 222 zusätzlich zu den Komponenten des in 2 gezeigten Spracherkennnungsgeräts 200' ein, während der Erkennungsergebniskandidatenkomparator 205 entfernt ist. Nachstehend sind die gleichen Komponenten wie die des Spracherkennungssystems in Übereinstimmung mit Ausführungsformen der 1 und 2 oder ähnliche Komponenten mit den gleichen Bezugszeichen wie die 1 oder 4 verwendeten bezeichnet, und die Erläuterung der Komponenten wird weggelassen oder vereinfacht.
Der Erkennungsergebniskandidatenkorrektor 221 übermittelt automatisch Sprachdaten an den Spracherkennungs-Server 100, wenn das Spracherkennungsgerät 200'' gestartet wird, und generiert eine Datenbank 221a zur Korrektur von Sprachoperationsbefehlen auf der Basis eines Spracherkennungsergebnisses, das von dem Spracherkennungs-Server 100 empfangen wird. Der Spracheingabe/Erkennungsergebnisspeicher 222 ist ein Puffer, der Sprachdaten speichert, die von einem Spracheingeber 201 konvertiert werden, und ein Spracherkennungsergebnis, das von einem Erkennungsergebnisintegrator 206'' generiert wird, während diese in Zusammenhang miteinander gebracht werden. Der Erkennungsergebnisintegrator 206'' integriert einen Server-seitigen Spracherkennungsergebniskandidaten und einen Client-seitigen Spracherkennungsergebniskandidaten unter Verwenden der Korrekturdatenbank 221a, welche von dem Erkennungsergebniskandidatenkorrektor 221 generiert wird.
Als nächstes werden Operationen des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3 erläutert. Nachstehend werden die Operationen durch Teilen der Operationen in eine Operation, als eine erste Operation, zu der Zeit erläutert, wenn ein Spracheingabe in einem Zustand gemacht wird, in welchem keine Daten in dem Spracheingabe/Erkennungsergebnisspeicher 222 gespeichert sind, eine Operation, als eine zweite Operation, des Generierens der Korrekturdatenbank 221a, wenn das Spracherkennungsgerät 200'' gestartet ist, und eine Operation, als eine dritte Operation, zu der Zeit, wenn eine Spracheingabe in einem Zustand gemacht wird, in welchem Daten in dem Spracheingabe/Erkennungsergebnisspeicher 222 gespeichert sind, und die Korrekturdatenbank 221a generiert wurde.
Nachstehend werden die gleichen Schritte die die des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 1 oder 2 mit den gleichen Bezugszeichen wie denen bezeichnet, die 2 oder 5 verwendet werden, und die Erläuterung der Schritte wird weggelassen oder vereinfacht.
<Erste Operation>
Als erstes wird die erste Operation unter Bezugnahme auf 9 und 10 erläutert, und 6, gezeigt in Ausführungsform 2.
9 ist ein Flussdiagramm, das die ersten und dritten Operationen des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3 der vorliegenden Erfindung zeigt, und 10 ist ein Diagramm, das ein Beispiel der Speicherung in dem Spracheingabe/Erkennungsergebnisspeicher zeigt.
Wenn eine geäußerte Sprache eines Nutzers eingegeben wird (Schritt ST1), konvertiert der Spracheingeber 201 des Spracherkennnungsgeräts 200'' die eingegebene geäußerte Sprache in Sprachdaten, und gibt die so konvertierten Sprachdaten an einen Client-seitigen Spracherkenner 203 aus, einen Übermittler 203, und den Spracheingabe/Erkennungsergebnisspeicher 222 (Schritt ST2'). Der Spracheingabe/Erkennungsergebnisspeicher 222 speichert die Sprachdaten, die in Schritt ST2' eingegeben werden, als „Sprachdaten (1)“ in einer Form, die zum Beispiel in 10 gezeigte ist (Schritt ST32).
In dem Beispiel von 10 wird jede eingegebene Sprachinformation 600 konfiguriert, indem ein Sprachoperationsbefehl 601 und Sprachdaten 60 miteinander in Zusammenhang gebracht werden.
Als nächstes führen der Spracherkennungs-Server 100 und Spracherkennungsgerät 200' die gleichen Prozesse wie die von Schritten ST3 bis ST7, und ST21 wie die in Übereinstimmung mit Ausführungsform 2 durch. Ein Empfänger 204 des Spracherkennnungsgeräts 200 empfängt einen Server-seitigen Spracherkennungsergebniskandidaten, der in Schritt ST6 von dem Spracherkennungs-Server 100 übermittelt wird, und gibt den so empfangenen Server-seitigen Spracherkennungsergebniskandidaten, an den Erkennungsergebniskandidatenkorrektor 221 und den Erkennungsergebnisintegrator 206'' aus (Schritt ST8').
Der Erkennungsergebniskandidatenkorrektor 221 vergleicht dann den Text des Server-seitigen Spracherkennungsergebniskandidaten, der in Schritt ST8' eingegeben wird, mit der Korrekturdatenbank 221a (Schritt ST32). In dieser ersten Operation wurde, da keine Daten in dem Spracheingabe/Erkennungsergebnisspeicher 222 gespeichert sind, die Korrekturdatenbank 221a noch nicht generiert. Deshalb gibt der Erkennungsergebniskandidatenkorrektor 221 ein Vergleichsergebnis aus, das zeigt, dass kein Korrekturkandidat für den Erkennungsergebnisintegrator zu 206'' vorliegt (Schritt ST33).
Der Erkennungsergebnisintegrator 206'' bestimmt, ob es möglich ist oder nicht, eine Textteilung auf einen Server-seitigen Spracherkennungsergebniskandidaten auf der Basis des generierten Client-seitigen Spracherkennungsergebniskandidaten durchzuführen, in Schritt ST7, durch den Client-seitigen Spracherkenner 202, eine festgelegte Äußerungsregel, in Schritt ST21, durch einen Eingaberegeldeterminator 211, den empfangenen Server-seitigen Spracherkennungsergebniskandidaten, in Schritt ST8', durch den Empfänger 204, und das erfasste Vergleichsergebnis, in Schritt ST33, von dem Erkennungsergebniskandidatenkorrektor 221 (Schritt ST34).
Zum Beispiel wird der Client-seitige Spracherkennungsergebniskandidat 404 „
(mêru (mail))“, gezeigt in 6, als der Client-seitige Spracherkennungsergebniskandidat eingegeben, der von dem Client-seitigen Spracherkenner 202 bereitgestellt wird, und die Server-seitige Spracherkennungsergebnisliste 403, gezeigt in 6, wird von dem Empfänger 204 eingegeben, wobei „
(mêru (mail))“ in den Texten der Server-seitigen Spracherkennungsergebniskandidaten 401 und 402 nicht eingeschlossen ist, die in dem vorstehend erwähnten Server-seitigen Spracherkennungsergebnisliste 403 enthalten sind. Weiterhin ist die Äußerungsregel, die von dem Eingaberegeldeterminator 211 eingegeben wird, „Befehl + freier Satz“, und das Vergleichsergebnis, das zeigt, das kein Korrekturkandidat vorliegt, wird von dem Erkennungsergebniskandidatenkorrektor 221 eingegeben. Im Ergebnis stellt der Erkennungsergebnisintegrator 206'' fest, dass es nicht möglich ist, die Texte zu teilen.
Dagegen wird, wenn der Text des Client-seitigen Spracherkennungsergebniskandidaten, der von dem Client-seitigen Spracherkenner 202 eingegeben wird, in einem Server-seitigen Spracherkennungsergebniskandidaten enthalten ist, der von dem Empfänger 204 eingegeben wird, festgestellt, dass es möglich ist, den Text zu teilen.
Wenn es möglich ist, den Text zu teilen (bei JA in Schritt ST34), führt der Erkennungsergebnisintegrator 206'' eine Textteilung auf den Text eines Server-seitigen Spracherkennungsergebniskandidaten durch, der von dem Empfänger 204 empfangen wird, unter Verwenden des Textes des Client-seitigen Spracherkennungsergebniskandidaten, der von dem Client-seitigen Spracherkenner 202 als eine Referenz eingegeben wird (Schritt ST35). Als nächstes kombiniert der Erkennungsergebnisintegrator 206'' einen Text nach einer Teilung von Schritt ST35 und dem Sprachoperationsbefehl, der dem Client-seitigen Spracherkennungsergebniskandidaten auf der Basis der Äußerungsregel entspricht, die von dem Eingaberegeldeterminator 211 eingegeben wird, um ein Spracherkennungsergebnis zu generieren (Schritt ST24), und gibt dieses Spracherkennungsergebnis an einen Ausgeber 207 aus (Schritt ST16).
Dagegen bestimmt, wenn es nicht möglich ist, eine Textteilung auf einen Server-seitigen Spracherkennungsergebniskandidaten durchzuführen (bei Nein in Schritt ST34), der Erkennungsergebnisintegrator 206'' den in Schritt ST7 erfassten Client-seitigen Spracherkennungsergebniskandidaten als ein Spracherkennungsergebnis (Schritt S36), und speichert dieses Spracherkennungsergebnis in dem Spracheingabe/Erkennungsergebnisspeicher 222 (Schritt ST37). Bei dem in 10 gezeigten Beispiel speichert der Erkennungsergebnisintegrator das Spracherkennungsergebnis „
(mêru (mail))“, das von dem Client-seitigen Spracherkenner 202 eingegeben wird, als einen „Sprachdaten (1)“ entsprechenden Sprachoperationsbefehl 601, welches Sprachdaten 602 sind.
Die vorstehend erwähnte Operation ist die erste Operation des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3.
<Zweite Operation>
Als nächstes wird die zweite Operation unter Bezugnahme auf 11 und 12 erläutert.
11 ist ein Flussdiagramm, das die zweite Operation des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3 der vorliegenden Erfindung zeigt, und 12 ist ein Diagramm, das ein Beispiel der Korrekturdatenbank des Spracherkennnungsgeräts des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3 der vorliegenden Findung zeigt.
Wenn das Spracherkennungsgerät 200'' startet, bezieht sich der Erkennungsergebniskandidatenkorrektor 221 auf den Spracheingabe/Erkennungsergebnisspeicher 222, um festzustellen, ob Sprachdaten gespeichert sind oder nicht (Schritt ST21). Wenn keine Sprachdaten gespeichert sind (bei NEIN in Schritt ST41), beendet der Erkennungsergebniskandidatenkorrektor die Verarbeitung. Dagegen erfasst, wenn Sprachdaten gespeichert sind (bei JA in Schritt ST42) der Erkennungsergebniskandidatenkorrektor die in dem Spracheingabe/Erkennungsergebnisspeicher 222 gespeicherten Sprachdaten (Schritt ST42), und überträgt die so erfassten Sprachdaten über den Übermittler 203 an den Spracherkennungs-Server 100 (Schritt ST43).
Der Spracherkennungs-Server 100 führt die gleichen Prozesse wie die von Schritten ST4 bis ST6 der vorstehend erwähnten Ausführungsform 1 durch, führt eine Spracherkennung auf den daran übermittelten Sprachdaten durch, und übermittelt einen Server-seitigen Spracherkennungsergebniskandidaten an das Spracherkennungsgerät 200''.
Der Empfänger 204 des Spracherkennnungsgeräts 200'' empfängt den in Schritt ST6 übermittelten Server-seitigen Spracherkennungsergebniskandidaten von dem Spracherkennungs-Server 100, und gibt den so empfangenen Server-seitigen Spracherkennungsergebniskandidaten an den Erkennungsergebniskandidatenkorrektor 221 aus (Schritt ST8'') . Der Erkennungsergebniskandidatenkorrektor 221 stellt fest, ob der in Schritt ST8'' eingegebene Server-seitige Spracherkennungsergebniskandidat mit einem Sprachoperationsbefehl übereinstimmt, der in dem Spracheingabe/Erkennungsergebnisspeicher 222 gespeichert ist (Schritt ST44). Wenn der Server-seitige Spracherkennungsergebniskandidat und ein Sprachoperationsbefehl miteinander übereinstimmen (bei JA in Schritt ST44) geht der Erkennungsergebniskandidatenkorrektor zu einem Prozess von Schritt ST46 über.
Dagegen fügt, wenn der Server-seitige Spracherkennungsergebniskandidat und ein Sprachoperationsbefehl nicht miteinander übereinstimmen (bei NEIN in Schritt ST44), der Erkennungsergebniskandidatenkorrektor der Korrekturdatenbank 221a Information hinzu, die zeigt, dass der Server-seitige Spracherkennungsergebniskandidat als ein Korrekturkandidat in Zusammenhang mit einem Sprachoperationsbefehl gebracht wird (Schritt ST45).
Bei dem in 12 gezeigten Beispiel ist ein in dem Spracheingabe/Erkennungsergebnisspeicher 223 gespeicherter Sprachoperationsbefehl 701 „
(mêru (mail))“, und, wenn ein Korrekturkandidat 702, welcher ein Server-seitiger Spracherkennungsergebniskandidat ist, „
(meiru) “ oder ”
(mieru)“ ist, fügt der Erkennungsergebniskandidatenkorrektor als korrekte Daten 700 Information zu der Korrekturdatenbank 221a hinzu, die zeigt, dass diese in Zusammenhang miteinander gebracht werden.
Als nächstes bezieht sich der Erkennungsergebniskandidatenkorrektor 221 auf die Sprachdaten, die in dem Spracheingabe/Erkennungsergebnisspeicher 222 gespeichert sind, und bestimmt, ob der Erkennungsergebniskandidatenkorrektor alle die Sprachdaten verarbeitet hat (Schritt ST46) . Wenn alle die Sprachdaten verarbeitet wurden (bei JA in Schritt ST46) beendet der Erkennungsergebniskandidatenkorrektor die Verarbeitung. Dagegen, wenn nicht bereits alle die Sprachdaten verarbeitet wurden (bei NEIN in Schritt ST46) kehrt der Erkennungsergebniskandidatenkorrektor zu dem Prozess von Schritt ST42 zurück und wiederholt die vorstehend erwähnte Verarbeitung.
Die vorstehend erwähnte Operation ist die zweite Operation des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3.
<Dritte Operation>
Als nächstes wird die dritte Operation unter Bezugnahme auf das vorstehend erwähnte Flussdiagramm von 9 erläutert. Die Erläuterung der gleichen Prozesse wie die in der vorstehend erwähnten ersten Operation wird nachstehend weggelassen.
Als Schritt ST32 vergleicht der Erkennungsergebniskandidatenkorrektor 221 den Text eines Server-seitigen Spracherkennungsergebniskandidaten, der in Schritt ST8' empfangen wird, mit der Korrekturdatenbank 221a. Zum Beispiel vergleicht, wenn die in 6 gezeigte Server-seitige Spracherkennungsergebniskandidatenliste 403 als Server-seitige Spracherkennungsergebniskandidaten eingegeben wird, der Erkennungsergebniskandidatenkorrektor den Text des Server-seitigen Spracherkennungsergebniskandidaten 401 mit den Korrekturkandidaten 702 der korrekten Daten 700, welche die in 12 gezeigte Korrekturdatenbank 221a bilden.
Beim Erkennen, dass der Korrekturkandidat „
(meiru) “ der Korrekturdatenbank 221a in dem Text des Server-seitigen Spracherkennungsergebniskandidaten 401 enthalten ist, gibt der Erkennungsergebniskandidatenkorrektor als ein Vergleichsergebnisses beide, den Korrekturkandidaten „
(meiru)“ der Korrekturdatenbank 221a und den Sprachoperationsbefehl „
(mêru (mail))“ entsprechend dem Korrekturkandidaten, als Schritt ST33 an den Erkennungsergebnisintegrator 206'' aus.
Als nächstes bestimmt der Erkennungsergebnisintegrator 206'', ob es möglich ist oder nicht, eine Textteilung auf einen Server-seitigen Spracherkennungsergebniskandidaten auf der Basis des generierten Client-seitigen Spracherkennungsergebniskandidaten durchzuführen, in Schritt ST7, durch den Client-seitigen Spracherkenner 202, eine bestimmte Äußerungsregel, in Schritt ST21, durch den Eingaberegeldeterminator 211, die empfangenen Server-seitigen Spracherkennungsergebniskandidaten, in Schritt ST8, durch den Empfänger 204, und das eingegebene Vergleichsergebnis, in Schritt ST33, von dem Erkennungsergebniskandidatenkorrektor 221, als Schritt ST34.
Zum Beispiel bestimmt, wenn der in 6 gezeigte Client-seitige Spracherkennungsergebniskandidat 404 „
(mêru (mail))“ als der Client-seitige Spracherkennungsergebniskandidat eingegeben wird, der von dem Client-seitigen Spracherkenner 202 bereitgestellt wird, die von dem Eingaberegeldeterminator 211 bestimmte Äußerungsregel „Befehl + freier Satz“ ist, und die in 6 gezeigte Server-seitige Spracherkennungsergebnisliste 403 von dem Empfänger 204 eingegeben wird, da „
(mêru (mail))“ nicht in den Texten der Server-seitigen Spracherkennungsergebnisse 401 und 402 der Server-seitigen Spracherkennungsergebnisliste 403 enthalten ist, sondern „
(mêru (mail))“ als das Vergleichsergebnis von dem Erkennungsergebniskandidatenkorrektor 221 eingegeben wird, der Erkennungsergebnisintegrator, dass es möglich ist, die Texte zu teilen (bei JA in Schritt ST34).
Der Erkennungsergebnisintegrator 206'' teilt den Text des Server-seitigen Spracherkennungsergebniskandidaten unter Verwenden des Korrekturkandidaten „
(meiru)“, der dem Bestimmungsergebnis „
(mêru (mail))“ als einer Referenz entspricht, als Schritt ST35. Der Erkennungsergebnisintegrator kombinierte weiterhin einen Text nach einer Teilung basierend auf der Information über die Äußerungsregel, die von dem Eingaberegeldeterminator 211 eingegeben wird, und dem Sprachoperationsbefehl, der dem Client-seitigen Spracherkennungsergebniskandidaten entspricht, um als Schritt ST24 ein Spracherkennungsergebnis zu generieren, und gibt das Spracherkennungsergebnis als Schritt ST16 an den Ausgeber 207 aus.
Die vorstehend erwähnte Operation ist die dritte Operation des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3.
Wie vorstehend erwähnt kann, da das Spracherkennungsgerät 200'' in Übereinstimmung mit dieser Ausführungsform 3 in solch einer Art konfiguriert ist, dass es den Erkennungsergebniskandidatenkorrektor 221 einschließt, der, wenn das Spracherkennungsgerät 200'' startet, die Datenbank 211a zur Korrektur von Spracherkennungsergebniskandidaten auf der Basis von Server-seitigen Spracherkennungsergebniskandidaten generiert, welche der Erkennungsergebniskandidatenkorrektor unter Verwenden von Sprachdaten erfasst, die in der Vergangenheit eingegeben werden, und Sprachdaten an den Spracherkennungs-Server 100 übermittelt, auch wenn jeder Server-seitige Spracherkennungsergebniskandidat, der von dem Spracherkennungs-Server 100 bereitgestellt wird, nicht mit einem Sprachoperationsbefehl übereinstimmt, der in dem Spracheingabe/Erkennungsergebnisspeicher 222 gespeichert ist, wenn ein Korrekturkandidat, der einem Sprachoperationsbefehl entspricht, mit einem Server-seitigen Spracherkennungsergebniskandidaten von dem Spracherkennungs-Server 100 übereinstimmt, das Spracherkennnungsgerät den Text unter Verwenden des Anteils als einer Referenz teilen, und einen Text nach Teilung und den Text des Client-seitigen Spracherkennungsergebniskandidaten integrieren, der von dem Spracherkennnungsgerät 200'' bereitgestellt wird, auf der Basis der Information über die Äußerungsregel, welche von dem Eingaberegeldeterminator 211 eingegeben wird.
Im Ergebnis kann, selbst wenn der Spracherkennungs-Server 100 aktualisiert wird und eine Änderung in einem Erkennungsergebnis auftritt, das Spracherkennungssystem der Aktualisierung folgen, und einen Spracherkennungsergebniskandidaten, der von der Server-Seite bereitgestellt wird, und einen Spracherkennungsergebniskandidaten, der von der Client-Seite bereitgestellt wird, integrieren, und ein genaueres Spracherkennungsergebnis ausgeben.
Weiterhin kann, da der Erkennungsergebnisintegrator 206'' in Übereinstimmung mit dieser Ausführungsform 3 in solch einer Art konfiguriert ist, dass der Text unter Verwenden eines Anteils, der als eine Referenz einen Unterschied aufweist, geteilt wird, und ein Text nach Teilung und der Text des Client-seitigen Spracherkennungsergebniskandidaten, der von dem Spracherkennungsgerät 200'' auf der Basis von der Information über die Äußerungsregel bereitgestellt wird, welche von dem Eingaberegeldeterminator 211 eingegeben wird, integriert wird, selbst wenn der Spracherkennungs-Server 100 einen Sprachoperationsbefehl nicht mit einem hohen Genauigkeitsgrad erkennen kann, das Spracherkennungssystem nur einen Anteil eines Dokuments verwenden, ohne einen Anteil entsprechend einem Sprachoperationsbefehl zu verwenden, und ein genaueres Spracherkennungsergebnis ausgeben.
Zudem können, da das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 3 in solch einer Art konfiguriert ist, dass es den Erkennungsergebniskandidatenkorrektor 221 einschließt, der den Text eines Server-seitigen Spracherkennungsergebniskandidaten mit der Korrekturdatenbank 221a vergleicht, ohne einen komplizierten syntaktischen Analyseprozess und eine wiederholte Berechnung von Erkennungspunktezahlen durchzuführen, die Funktionen des Spracherkennnungsgeräts 200'' implementiert werden, während die Verarbeitungslast auf einer CPU niedergehalten wird.
Weiterhin können, da das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 3 in solch einer Art konfiguriert ist, dass es den Umfang von Berechnungen ohne Durchführen einer komplizierten syntaktischen Analyse durch Vergleichen des Textes eines Server-seitigen Spracherkennungsergebniskandidaten mit der Korrekturdatenbank 221a niederhält, um einen Anteil zu erkennen, der eine niedrige Zuverlässigkeit aufweist, die Funktionen des Spracherkennnungsgeräts 200'' unter Verwenden einer CPU implementiert werden, die eine geringe arithmetische Leistung aufweist.
Zudem kann, da das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 3 in solch einer Art konfiguriert ist, dass das Spracherkennungsgerät 200'' die Sprachdaten zu der gleichen Zeit an den Spracherkennungs-Server 100 übermittelt, wenn das Spracherkennnungsgerät die Sprachdaten an den Client-seitigen Spracherkenner 202 eingibt, verglichen mit einem Übermittlungsverfahren der Sprachdaten an den Spracherkennungs-Server 100, nachdem das Spracherkennungsgerät 200 einen Client-seitigen Spracherkennungsergebniskandidaten erfasst, ein Spracherkennungsergebnis zu einer früheren Zeit von dem Spracherkennungs-Server 100 erfasst werden, und die Verzögerungszeit, welche verstrichen ist, bis das Spracherkennungsgerät entscheidet und ein Spracherkennungsergebnis ausgibt, kann verkürzt werden.
Ausführungsform 4.
Obwohl in der vorstehend erwähnten Ausführungsform 3 die Konfiguration gezeigt ist, in welcher das Spracherkennungssystem eine Änderung eines Server-seitigen Spracherkennungsergebniskandidaten erkennt, der von dem Spracherkennungs-Server zu 100 bereitgestellt wird, und es möglich macht, den Text zu allen Zeiten zu teilen, wird in dieser Ausführungsform 4 eine Konfiguration gezeigt, in welcher ein Spracherkennungssystem ein richtiges Nomen erkennt, das in einem Text nach Teilung als ein freier Satz enthalten ist.
Das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 4 ist auch mit einem Spracherkennungs-Server 100 und einem Spracherkennungsgerät 200' ausgestattet. Da die Komponenten des Spracherkennungs-Servers 100 und des Spracherkennnungsgeräts 200' in Übereinstimmung mit Ausführungsform 4 die gleichen wie die des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 2 sind, wird die Beschreibung der Komponenten nachstehende weggelassen. In der folgenden Erläuterung wird eine Erläuterung gegeben, bei der die gleichen Komponenten mit den gleichen Bezugsziffern wie den in 4 verwendeten bezeichnet sind.
Ein Erkennungsergebniskandidatenkomparator 205 weist eine Funktion des, beim Vergleichen von Server-seitigen Spracherkennungskandidaten und Erkennen einer Vielzahl von Positionen, Erkennens auf, ob die Texte an den erkannten Positionen die gleichen Inhalte aufweisen, zusätzlich zu der Funktion, die in Ausführungsform 2 erläutert ist. Wenn der Erkennungsergebniskandidatenkomparator 205 feststellt, dass die Texte an den erkannten Positionen die gleichen Inhalte aufweisen, ersetzt ein Erkennungsergebnisintegrator 206' jeden der Texte, welche als die gleichen Inhalte aufweisend festgestellt werden, mit einem entsprechenden richtigen Nomen.
Als nächstes werden Operationen des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 4 unter Bezugnahme auf 13 bis 15 erläutert.
13 ist ein Flussdiagramm, das die Operationen des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 4 der vorliegenden Erfindung zeigt. 14 zeigt ein Beispiel der Generierung eines Spracherkennungsergebnisses durch das Spracherkennungssystem in Übereinstimmung mit Ausführungsform 4 der vorliegenden Erfindung, und 15 ist ein Diagramm, das ein Beispiel der Speicherung von Äußerungsregelmustern zeigt. Nachstehend sind die gleichen Schritte wie die des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 2 durch die gleichen Bezugszeichen bezeichnet wie die, die in 5 verwendet werden, und die Erläuterung der Schritte wird weggelassen oder vereinfacht.
Als erstes führt das Spracherkennungsgerät 200' Prozesse von Schritten ST1 und ST2 durch, und ein Client-seitiger Spracherkenner 202 führt eine Spracherkennung auf eingegebene Sprachdaten durch, wie denen in Übereinstimmung mit Ausführungsform 2 (Schritt ST7).
Zum Beispiel führt, wenn der Client-seitige Spracherkenner 202 nur ein richtiges Nomen ersetzt, welches in einem Adressbuch oder dergleichen registriert ist, und einen Sprachoperationsbefehl als ein zu erkennendes Objekt in dem Beispiel, dass in 14 gezeigt ist, der Client-seitige Spracherkenner eine Spracherkennung auf Sprachdaten durch, die von einem Nutzer „
(Kenji san ni mêru (mail), honjitsu wa watashi to Kenji san de taiöshimasu)“ eingegeben werden, erkennt „
(Kenji)“, welches ein richtiges Nomen ist, und „
(san ni mêru (mail)) “, welches ein Sprachoperationsbefehl ist, und erfasst einen Client-seitigen Spracherkennungsergebniskandidaten 804 „
(Kenji san ni mêru (mail)) .“ In dem Beispiel von 14 besteht eine Client-seitige Spracherkennungsergebniskandidatenliste 805 aus dem einzigen Client-seitigen Spracherkennungsergebniskandidaten 804. Der erfasste Client-seitige Spracherkennungsergebniskandidat wird an den Erkennungsergebnisintegrator 206' und einen Eingaberegeldeterminator 211 ausgegeben.
Als nächstes bezieht sich der Eingaberegeldeterminator 211 auf beides, den Client-seitigen Spracherkennungsergebniskandidaten, der daran von dem Client-seitigen Spracherkenner 202 eingegeben wird, und die Äußerungsregelmuster, die in einem Eingaberegelspeicher 212 gespeichert sind, um einen Sprachoperationsbefehl zu verifizieren, und bestimmt die Äußerungsregel der Sprachdaten, die in Schritt ST1 eingegeben werden (Schritt ST21).
Zum Beispiel wird, wenn ein Vergleich zwischen dem Client-seitigen Spracherkennungsergebniskandidaten 804 „

(Kenji san ni mêru (mail))“, gezeigte in 14, und den Äußerungsregelmustern 900, gezeigt in 15, gemacht wird, ein übereinstimmender Sprachoperationsbefehl 901 „

(san ni mêru (mail))“ erkannt, und die entsprechende Äußerungsregel 902 „richtiges Nomen + Befehl + freier Satz“ der eingegebenen Sprache wird erfasst. Die erfasste Äußerungsregel der eingegebenen Sprache wird an den Erkennungsergebnisintegrator 206' ausgegeben.
Das Spracherkennungsgerät 200' führt weiterhin Prozesse von Schritten ST8 und ST9 durch, und, wenn der Erkennungsergebniskandidatenkomparator 205 feststellt, dass eine Vielzahl von Spracherkennungsergebniskandidaten enthalten sind (bei JA in Schritt ST9), vergleicht der Erkennungsergebniskandidatenkomparator 205 die Texte der Spracherkennungsergebniskandidaten, um partielle Texte zu erkennen, die einen Unterschied aufweisen (Schritt ST10). Der Erkennungsergebniskandidatenkomparator 205 stellt fest, ob er partielle Texte erkannt hat, die einen Unterschied aufweisen (Schritt ST11), und, wenn partielle Texte erkannt wurden, die einen Unterschied aufweisen (bei JA in Schritt ST11) , gibt die partiellen Texte, die einen Unterschied aufweisen, als ein Erkennungsergebnis an den Erkennungsergebnisintegrator 206' aus (Schritt ST12).
Da in dem Beispiel von 14 zwei Server-seitige Spracherkennungsergebniskandidaten 801 und 802 in einer Server-seitigen Spracherkennungsergebnisliste 803 enthalten sind, vergleicht der Erkennungsergebniskandidatenkomparator „
(kenji san ni mêru (mail), honjitsu wa watashi to kenji san de taiôshimasu)“ und „

(Kenji san ni mêru (mail), honjitsu wa watashi to Kenji san de taiôshimasu) “, welches die Textinformationsteile der Kandidaten sind, und erkennt, dass zwei Anteile, jeder einen Unterschied aufweisend, vorhanden sind, und beide der zwei Anteile den gleichen Text haben („
(kenji)“ in dem Spracherkennungsergebniskandidaten 801, und „
(Kenji)“ in dem Spracherkennungsergebniskandidaten 802) .
Der Erkennungsergebnisintegrator 206 bestimmt, ob es möglich ist oder nicht, eine Ersetzung mit einem richtigen Nomen durchzuführen, das in dem Text eines freien Satzes auf der Basis des generierten Client-seitigen Spracherkennungsergebniskandidaten enthalten ist, in Schritt ST7, durch den Client-seitigen Spracherkenner 202, die bestimmte Äußerungsregel, in Schritt ST21, durch den Eingaberegeldeterminator 211, die empfangenen Server-seitigen Spracherkennungsergebniskandidaten, in Schritt ST8, durch einen Empfänger 204, und das Ergebnis der Erkennung eines Unterschieds, welcher in Schritt ST12 oder ST13 von dem Erkennungsergebniskandidatenkomparator 205 eingegeben wird (Schritt ST51).
Die Feststellung, ob es möglich ist oder nicht, eine Ersetzung mit einem richtigen Nomen durchzuführen, wird konkret wie nachfolgend durchgeführt.
In den Beispielen von 14 und 15 bestimmt, wenn der Client-seitige Spracherkennungsergebniskandidat 804 „

(Kenji san ni mêru (mail))“, der von dem Client-seitigen Spracherkenner 202 bereitgestellt wird, eingegeben wird, und die Server-seitige Spracherkennungsergebniskandidatenliste 803, welche aus den Server-seitigen Spracherkennungsergebniskandidaten 801 und 802 besteht, von dem Empfänger 204 eingegeben wird, der Erkennungsergebnisintegrator, ob ein Sprachoperationsbefehl „
(san ni mêru (mail))“ in dem Text von jedem der Server-seitigen Spracherkennungsergebniskandidaten 801 und 802 enthalten ist.
Beim Feststellen, dass ein Sprachoperationsbefehl gemäß der Information über die Äußerungsregel enthalten ist, die von dem Eingaberegeldeterminator 211 eingegeben wird (der Äußerungsregel „richtiges Nomen + Befehl + freier Satz“ der Spracheingabe, welche dem in 15 gezeigten Sprachoperationsbefehl „
(san ni mêru (mail))“ entspricht), teilt der Erkennungsergebnisintegrator jeden der Server-seitigen Spracherkennungsergebniskandidaten in einen Text, der einem richtigen Nomen entspricht (in dem Beispiel von 14 „
(kenji)“ des Server-seitigen Spracherkennungsergebniskandidaten 801, und „
(Kenji)“ des Server-seitigen Spracherkennungsergebniskandidaten 802), und einen Text, der einem freien Satz entspricht (in dem Beispiel von 14 „ 0 t (honjitsu wa watashi to kenji san de taiôshimasu)“ des Server-seitigen Spracherkennungsergebniskandidaten 801, und „
(honjitsu wa watashi to Kenji san de taiôshimasu)“ des Server-seitigen Spracherkennungsergebniskandidaten 802) unter Verwenden des Textes des Sprachoperationsbefehls als eine Referenz.
Der Erkennungsergebnisintegrator stellt weiterhin fest, ob ein Anteil, der mit dem Text eines richtigen Nomens übereinstimmt, in dem Text vorhanden ist, der dem freien Satz entspricht (in dem Beispiel von 14 stellt der Erkennungsergebnisintegrator fest, dass ein Anteil, der mit dem Text eines richtigen Nomens übereinstimmt („
(kenji)“ des Spracherkennungsergebniskandidaten 801 und „
(Kenji)“ des Spracherkennungsergebniskandidaten 802) in dem freien Satz vorhanden ist). Dann, wenn ein Anteil, der mit dem Text eines richtigen Nomens übereinstimmt, in dem freien Satz vorhanden ist, bestimmt der Erkennungsergebnisintegrator, dass es möglich ist, eine Ersetzung mit dem richtigen Nomen durchzuführen.
Beim Feststellen, dass es möglich ist, eine Ersetzung mit dem richtigen Nomen durchzuführen (bei JA in Schritt ST51), ersetzt der Erkennungsergebnisintegrator das richtige Nomen, das in dem Text nach Teilung enthalten ist, als einen freien Satz mit dem entsprechenden Text auf der Basis des Erkennungsergebnisses, das von dem Erkennungsergebniskandidatenkomparator 205 eingegeben wird (Schritt ST52).
In dem Beispiel der 14 ersetzt der Erkennungsergebnisintegrator den Text „
(kenji)“ entsprechend dem richtigen Nomen, welches in dem Text „
(honjitsu wa watashi to kenji san de taiôshimasu)“ nach Teilung als ein freier Satz enthalten ist, mit dem Text „

(Kenji)“ des richtigen Nomens, welches von dem Client-seitigen Spracherkenner 202 erkannt wird, um festzulegen „
(honjitsu wa watashi to Kenji san de taiôshimasu).“
Der Erkennungsergebnisintegrator 206' kombiniert den Text nach Teilung und den Sprachoperationsbefehl entsprechend dem Client-seitigen Spracherkennungsergebniskandidaten auf der Basis der Information über die Äußerungsregel, die von dem Eingaberegeldeterminator 211 eingegeben wird, um über ein Spracherkennungsergebnis zu entscheiden (Schritt ST24). Das dezidierte Spracherkennungsergebnis wird an den Ausgeber 207 ausgegeben (Schritt ST16).
In dem Beispiel von 14 legt der Erkennungsergebnisintegrator „
(Kenji san ni mêru (mail) , honjitsu wa watashi to Kenji san de taiôshimasu)“ fest, welches durch Kombinieren des richtigen Nomens „
(Kenji)“ und des Sprachoperationsbefehls „

(san ni mêru (mail))“, und des Textes „

(honjitsu wa watashi to Kenji san de taiôshimasu)“ entsprechend dem freien Satz auf der Basis der Äußerungsregel „richtiges Nomen + Befehl + freier Satz“ als ein Spracherkennungsergebnis.
Dagegen legt, wenn festgestellt wird, dass es nicht möglich ist, eine Ersetzung mit dem richtigen Nomen durchzuführen (bei NEIN in Schritt ST51), bestimmt der Erkennungsergebnisintegrator 206' einen in Schritt ST8 empfangenen Server-seitigen Spracherkennungsergebniskandidaten als ein Spracherkennungsergebnis fest (Schritt ST25), und gibt dieses Spracherkennungsergebnis an den Ausgeber 207 aus (Schritt ST16) .
Wie vorstehend erwähnt kann, da das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 4 in solch einer Art konfiguriert ist, dass es, wenn eine Vielzahl von Server-seitigen Spracherkennungsergebniskandidaten von dem Spracherkennungs-Server 100 erfasst werden, die Texte der Server-seitigen Spracherkennungsergebniskandidaten vergleicht, um partielle Texte zu erkennen, die einen Unterschied aufweisen, und, wenn ein partieller Text, der einen Unterschied aufweist, einem Erkennungsergebnis eines richtigen Nomens in dem Client-seitigen Spracherkennungsergebniskandidaten entspricht, und ein Text, der einem richtigen Nomen entspricht, auch in einem Text nach Teilung als ein freier Satz enthalten ist, den Text des richtigen Nomens, das in dem Text des freien Satzes enthalten ist, mit dem Text des richtigen Nomens ersetzt, welches von dem Client-seitigen Spracherkenner 202 erkannt wird, auch wenn ein Teil von Sprachinformation nicht für jeden der Server-seitigen Spracherkennungsergebniskandidaten bereitgestellt wird, das Spracherkennungssystem ein von der Server-Seite bereitgestelltes Spracherkennungsergebnis und ein von der Client-Seite bereitgestelltes Spracherkennungsergebnis mit einem hohen Genauigkeitsgrad integrieren, ohne einen Sprachinformationsteil zu verwenden, und ein genaueres Spracherkennungsergebnis ausgeben.
Obwohl das Beispiel, in welchem der Sprachoperationsbefehl „
(san ni mêru (mail) ) “ korrekt erkannt wird, in vorstehend aufgeführter Ausführungsform 4 gezeigt ist, kann eine Konfiguration bereitgestellt werden, bei welcher, durch Kombinieren der Funktion des in Ausführungsform 3 gezeigten Erkennungsergebniskandidatenkorrektors 221, und der des in Ausführungsform 3 gezeigten Spracheingabe/Erkennungsergebnisspeichers 222, wenn der Erkennungsergebnisintegrator 206' den Sprachoperationsbefehl nicht korrekt als einen Server-seitigen Spracherkennungsergebniskandidaten des Spracherkennungs-Servers 100 erkennt, durch Durchsuchen einer Korrekturdatenbank 221a, um sich auf einen Spracherkennungsergebnisbefehl zu beziehen, der als ein Korrekturkandidat dient, festgestellt wird, dass es möglich ist, den Text durch Verwenden eines Sprachoperationsbefehls als eine Referenz zu teilen. Im Ergebnis kann, selbst wenn der Sprachoperationsbefehl nicht normal von dem Spracherkennungs-Server 100 erkannt wird, das Spracherkennungssystem den Text mit einem höheren Genauigkeitsgrad teilen und ein genaueres Spracherkennungsergebnis ausgeben.
Ausführungsform 5.
Obwohl die Verarbeitungsoperationen des Spracherkennungssystems in vorstehend erwähnter Ausführungsform 1 durch Bereitstellen, als einem Beispiel, des Falles erläutert sind, in welchem eine Sprache, die ein Nutzer auf Japanisch äußert, eingegeben wird, werden Verarbeitungsoperationen eines Spracherkennungssystems in dieser Ausführungsform 5 durch Bereitstellen, als einem Beispiel, eines Falles erläutert, in welchem eine Sprache, welche ein Nutzer auf Englisch äußert, eingegeben wird. Da die Konfiguration und die Operationen des Spracherkennungssystems in Übereinstimmung mit dieser Ausführungsform 5 die gleichen sind wie die der Konfiguration (siehe 1) und der Operationen (siehe 2), welche in Ausführungsform 1 gezeigt sind, werden die Konfiguration und die Operationen unter Verwenden von 1 und 2 erläutert.
Eine Operation des Spracherkennungssystems zu der Zeit, wenn eine auf Englisch geäußerte Sprache eingegeben wird, wird anhand des Flussdiagramms von 2 erläutert, und unter Bezugnahme auf ein konkretes Beispiel von 16. 16 ist ein Diagramm, das ein Beispiel der Generierung eines Spracherkennungsergebnisses durch das Spracherkennungssystem in Übereinstimmung mit Ausführungsform 5 der vorliegenden Erfindung zeigt.
In Schritt ST5 setzt zum Beispiel ein Server-seitiger Spracherkenner 102 ein willkürliches Dokument als ein zu erkennendes Objekt und führt eine Spracherkennung auf Sprachdaten „Send SMS to John, Take care yourself.“ aus, die von einem Spracherkennungsgerät 200 empfangen werden, und erfasst eine Server-seitige Spracherkennungsergebniskandidatenliste 313, die „SEND SAND S TO JOHN TAKE CARE YOURSELF“ enthält, welches ein in 16 gezeigter Server-seitiger Spracherkennungsergebniskandidat 311 ist, und „SEND SAND ASKED JOHN TAKE CARE YOURSELF“, welches ein in 16 gezeigter Server-seitiger Spracherkennungsergebniskandidat 312 ist.
Auf der anderen Seite setzt zum Beispiel in Schritt ST7 ein Client-seitiger Spracherkenner 202 nur einen Befehl zur Sprachoperation, und Information über einen Namen einer Person, welche im Vorhinein in einem Adressbuch registriert wird, als ein zu erkennendes Objekt, und wenn ein Nutzer eine Sprache eingibt „Send SMS to John, Take care yourself.“, erkennt der Client-seitige Spracherkenner 202 „SEND SMS TO“, welches ein Sprachoperationsbefehl ist, und „JOHN“, welches ein Name einer Person ist, und erfasst eine Client-seitige Spracherkennungsergebniskandidatenliste 315, die „SEND SMS TO JOHN“ enthält, welches ein Client-seitiger Spracherkennungsergebniskandidat 314 ist, der in 16 gezeigt ist. In dem Beispiel von 16 besteht die Client-seitige Spracherkennungsergebniskandidatenliste 315 nur aus dem einzigen Client-seitigen Spracherkennungsergebniskandidaten 314.
Als nächstes werden in Schritt ST11 in dem Beispiel von 16 die zwei Server-seitigen Spracherkennungsergebniskandidaten 311 und 312 in der Server-seitigen Spracherkennungsergebniskandidatenliste 313 eingeschlossen, und „SEND SAND S TO JOHN TAKE CARE YOURSELF“ und „SEND SAND ASKED JOHN TAKE CARE YOURSELF“, welches die Textinformationsteile der Kandidaten sind, werden verglichen, und Anteile, jeder eingeschlossen von dem führenden Text „SEND S AND“ und dem angehängten Text „JOHN TAKE CARE YOURSELF“ werden als partielle Texte erkannt, die einen Unterschied aufweisen. Konkreter werden „S TO“ des Server-seitigen Spracherkennungsergebniskandidaten 311 und „ASKED“ des Server-seitigen Spracherkennungsergebniskandidaten 312 als partielle Texte erkannt, die einen Unterschied aufweisen.
Als nächstes wird in Schritt ST15 in dem Beispiel von 16, wenn der partielle Text „S TO“ in dem Server-seitigen Spracherkennungsergebniskandidaten 311 und der partielle Text „ASKED“, von denen jeder durch den an führenden Text „SEND S AND“ und den angehängten Text „JOHN TAKE CARE YOURSELF“ eingeschlossen sind, als partielle Texte erkannt werden, die einen Unterschied aufweisen, eine Suche durchgeführt, ob ein partieller Text, der mit „SEND S AND“, und ein partieller Text, der mit „JOHN“ übereinstimmt, in dem Client-seitigen Spracherkennungsergebniskandidaten 314 vorhanden ist. In dem Beispiel der 16 ist „JOHN“ eingeschlossen, doch der partielle Text „SEND S AND“ ist nicht enthalten. In diesem Fall wird der partielle Text, nach dem gesucht wird, auf einen wie „SEND“ gekürzt, und eine wiederholte Suche wird unter Verwenden des gekürzten partiellen Textes durchgeführt. In dem Beispiel von 16 wird als ein Ergebnis der wiederholten Suche „SMS TO“, eingeschlossen durch „SEND“ und „JOHN“ abgerufen. Danach wird „S AND S TO“, eingeschlossen von „SEND“ und „JOHN“ des Server-seitigen Spracherkennungsergebniskandidaten 311, durch „SMS TO“ ersetzt, welches gerufen wird, und ein Spracherkennungsergebnis 316 „SEND SMS TO JOHN TAKE CARE YOURSELF“ wird erfasst.
Wie vorstehend erwähnt kann das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 5 die gleichen Vorteile wie die bereitstellen, die durch Ausführungsform 1 bereitgestellt werden, auch wenn eine in Englisch geäußerte Sprache an dem Spracherkennungsgerät 200 eingegeben wird.
Ausführungsform 6.
Obwohl die Verarbeitungsoperationen des Spracherkennungssystems in vorstehend erwähnter Ausführungsform 2 durch Bereitstellen, als einem Beispiel, des Falles erläutert sind, in welchem eine Sprache, welche ein Nutzer auf Japanisch äußert, eingegeben wird, werden Verarbeitungsoperationen eines Spracherkennungssystems in dieser Ausführungsform 6 durch Bereitstellen, als einem Beispiel, eines Falles erläutert, in welchem eine Sprache, welche ein Nutzer auf Englisch äußert, eingegeben wird. Da die Konfiguration und die Operationen des Spracherkennungssystems in Übereinstimmung mit dieser Ausführungsform 6 die gleichen wie die der Konfiguration (siehe 4) und der Operationen (siehe 5) sind, welche in Ausführungsform 2 gezeigt sind, werden die Konfiguration und die Operationen unter Verwenden von 4 und 5 erläutert.
Eine Operation des Spracherkennungssystems zu der Zeit, wenn eine auf Englisch geäußerte Sprache eingegeben wird, wird zusammen mit dem Flussdiagramm von 5 und unter Bezugnahme auf ein konkretes Beispiel von 17 und 18 erläutert. 17 ist ein Diagramm, das ein Beispiel der Generierung eines Spracherkennungsergebnisses durch das Spracherkennungssystem in Übereinstimmung mit Ausführungsform 6 der vorliegenden Erfindung zeigt, und 18 ist ein Diagramm, das ein Beispiel der Speicherung von Äußerungsregelmustern zeigt.
Als erstes führt ein Spracherkennungsgerät 200' Prozesse von Schritten ST1, ST2 und ST7 durch, und führt eine Spracherkennung auf eingegebenen Sprachdaten durch, wie die in Übereinstimmung mit Ausführungsform 2.
Zum Beispiel führt, wenn ein Client-seitiger Spracherkenner 202 bei dem in 17 gezeigten Beispiel nur einen Sprachoperationsbefehl als ein zu erkennendes Objekt setzt, der Client-seitige Spracherkenner eine Spracherkennung auf von einem Nutzer eingegebenen Sprachdaten „Search for pictures of the golden gate bridge.“ durch, und erfasst einen Client-seitigen Spracherkennungsergebniskandidaten 414 „SEARCH FOR.“ In dem Beispiel von 17 besteht eine Client-seitige Spracherkennungsergebnisliste 415 aus dem einzigen Client-seitigen Spracherkennungsergebniskandidaten 414.
Als nächstes bezieht sich in Schritt ST21 ein Eingaberegeldeterminator 211 auf beides, den Client-seitigen Spracherkennungsergebniskandidaten, der daran von dem Client-seitigen Spracherkenner 202 eingegeben wird, und Äußerungsregelmuster, die in einem Eingaberegelspeicher 212 gespeichert sind, um einen Sprachoperationsbefehl zu verifizieren, und bestimmt die Äußerungsregel der in Schritt ST1 eingegebenen Sprachdaten.
Bei dem in 18 gezeigten Beispiel besteht jedes Äußerungsregelmuster 510, dass in Eingaberegelspeicher 212 gespeichert ist, aus einem Sprachoperationsbefehl 511 und einer Äußerungsregel 512 der Spracheingabe. In der Figur ist gezeigt, dass zum Beispiel, wenn der Sprachoperationsbefehl 511 „SEARCH FOR“ ist, „Befehl + Schlüsselwort“ als die Äußerungsregel 512 der Spracheingabe erfasst wird.
Bei dem in 17 gezeigten Beispiel erfasst, wenn der Client-seitige Spracherkennungsergebniskandidat 414 „SEARCH FOR“ ist, der Eingaberegeldeterminator 211 „Befehl + Schlüsselwort“, welches die Äußerungsregel 512 der Spracheingabe ist, welche „SEARCH FOR“ entspricht, welches der übereinstimmende Sprachoperationsbefehl 511 ist.
Auf der anderen Seite führt in Schritten ST4 bis ST6, wenn der Server-seitige Spracherkenner 102 in dem Beispiel von 17 ein beliebiges Dokument als ein zu erkennendes Objekt setzt, der Server-seitige Spracherkenner eine Spracherkennung auf den empfangenen Sprachdaten „Search for pictures of the golden gate bridge.“ durch und erfasst einen Server-seitigen Spracherkennungsergebniskandidaten 411 „SYSTEM PICTURES OF THE GOLDEN GATE BRIDGE“ und einen Server-seitigen Spracherkennungsergebniskandidaten 412 „SISTER PICTURES OF THE GOLDEN GATE BRIDGE.“ Als eine Server-seitige Spracherkennungsergebniskandidatenliste 413 werden die erfassten zwei Server-seitigen Spracherkennungsergebniskandidaten 411 und 412 an das Spracherkennungsgerät 200' ausgegeben.
Als nächstes führt das Spracherkennungsgerät 200' Prozesse von Schritten ST8 bis ST13 durch. Bei der Erkennung von partiellen Texten in Schritt ST10, die einen Unterschied aufweisen, wie durch Heranziehen des Falles von 17 als einem Beispiel erläutert wird, vergleicht das Spracherkennungsgerät den Server-seitigen Spracherkennungsergebniskandidaten 411 „SYSTEM PICTURES OF THE GOLDEN GATE BRIDGE“ und den Server-seitigen Spracherkennungsergebniskandidaten 412 „SISTER PICTURES OF THE GOLDEN GATE BRIDGE“ in der Server-seitigen Spracherkennungsergebniskandidatenliste 413, und erkennt „SYSTEM“ und „SISTER“ als partielle Texte, die einen Unterschied aufweisen. Das Erkennungsergebnis wird an den Erkennungsergebnisintegrator 206' ausgegeben.
Der Erkennungsergebnisintegrator 206' bestimmt in Schritte ST22, ob es notwendig ist oder nicht, eine Textteilung auf einen Server-seitigen Spracherkennungsergebniskandidaten auf der Basis des generierten Client-seitigen Spracherkennungsergebniskandidaten durchzuführen, in Schritt ST7, durch den Client-seitigen Spracherkenner 202, die bestimmte Äußerungsregel, in Schritt ST21, durch den Eingaberegeldeterminator 211, die empfangenen Server-seitigen Spracherkennungsergebniskandidaten, in Schritt ST8, durch einen Empfänger 204, und dem Ergebnis der Erkennung eines Unterschieds, welcher in Schritten ST12 oder ST13 von einem Erkennungsergebniskandidatenkomparator 205 eingegeben wird.
In den Beispielen von 17 und 18 wird, wenn der Client-seitige Spracherkennungsergebniskandidat 414 „SEARCH FOR“, der von dem Client-seitigen Spracherkenner 202 bereitgestellt wird, eingegeben wird, und die Server-seitige Spracherkennungsergebniskandidatenliste 413, welche aus dem Server-seitigen Spracherkennungsergebniskandidaten 411 und 412 besteht, von dem Empfänger 204 eingegeben wird, da „SEARCH FOR“ nicht in den Texten der Server-seitigen Spracherkennungsergebniskandidaten 411 und 412 enthalten ist, die von dem Eingaberegeldeterminator 211 eingegebene Äußerungsregel „Befehl + Schlüsselwort“ ist, und das Erkennungsergebnis, das zeigt, dass ein Unterschied erkannt ist, von dem Erkennungsergebniskandidatenkomparator 205 eingegeben wird, festgestellt, dass es notwendig ist, den Text zu teilen.
Wenn es erforderlich ist, eine Textteilung auf einen Server-seitigen Spracherkennungsergebniskandidaten durchzuführen (bei JA in Schritt ST22), führt der Erkennungsergebnisintegrator 206' in Schritt ST23 unter Verwenden eines partiellen Textes, der als eine Referenz einen Unterschied aufweist, eine Textteilung auf den Text eines Server-seitigen Spracherkennungsergebniskandidaten durch, der von dem Empfänger 204 empfangen wird. Da bezüglich des Textes des Server-seitigen Spracherkennungsergebniskandidaten 411 bei dem in 17 gezeigten Beispiel „SYSTEM“ als ein partieller Text erkannt wird, der einen Unterschied aufweist, wird der Text in zwei Texte geteilt: „SYSTEM“ und „PICTURES OF THE GOLDEN GATE BRIDGE.“
Als nächstes kombiniert als Schritt T 24 der Erkennungsergebnisintegrator 206' einen Text nach Teilung von Schritt ST23 und den Sprachoperationsbefehl entsprechend dem Client-seitigen Spracherkennungsergebniskandidaten auf der Basis der Äußerungsregel, die von dem Eingaberegeldeterminator 211 eingegeben wird, und gibt ein kombiniertes Ergebnis als ein Spracherkennungsergebnis an einen Ausgeber 207 aus.
Bei dem in 17 gezeigten Beispiel wird „SEARCH FOR PICTURES OF THE GOLDEN GATE BRIDGE“, welches durch Kombinieren des Sprachoperationsbefehls „SEARCH FOR“ und des Textes nach Teilung „PICTURES OF THE GOLDEN GATE BRIDGE“ erfasst wird, welches einem freien Satz auf der Basis der Äußerungsregel „Befehl + Schlüsselwort“ entspricht, als ein Spracherkennungsergebnis bereitgestellt.
Wie vorstehend erwähnt kann das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 6 die gleichen Vorteile bereitstellen, wie die von Ausführungsform 2 bereitgestellten, auch wenn eine auf Englisch geäußerte Sprache an dem Spracherkennungsgerät 200' eingegeben wird.
Ausführungsform 7.
Obwohl die Verarbeitungsoperationen des Spracherkennungssystems in vorstehend erwähnter Ausführungsform 3 durch Bereitstellen, als einem Beispiel, des Falles erläutert sind, in welchem eine Sprache, welche ein Nutzer auf Japanisch äußert, eingegeben wird, werden Verarbeitungsoperationen eines Spracherkennungssystems in dieser Ausführungsform 7 durch Bereitstellen, als einem Beispiel, eines Falles erläutert, in welchem eine Sprache, welche ein Nutzer auf Englisch äußert, eingegeben wird. Da die Konfiguration und die Operationen des Spracherkennungssystems in Übereinstimmung mit dieser Ausführungsform 7 die gleichen wie die Konfiguration (siehe 8) und die Operationen (siehe 9 und 11) sind, welche in Ausführungsform 3 gezeigt sind, werden die Konfiguration und die Operationen unter Verwenden von 8, 9 und 11 erläutert.
Nachstehend werden die Operationen durch Teilen der Operationen in eine Operation, als eine erste Operation erläutert, zu der Zeit, wenn eine auf Englisch geäußerte Spracheingabe in einem Zustand gemacht wird, in welchem keine Daten in einem Spracheingabe/Erkennungsergebnisspeicher 222 gespeichert sind, eine Operation, als eine zweite Operation, des Generierens einer Korrekturdatenbank 221a, wenn ein Spracherkennungsgerät 200'' gestartet wird, und eine Operation, als eine dritte Operation, zu der Zeit, wenn eine auf Englisch geäußerte Spracheingabe in einem Zustand gemacht wird, in welchem Daten in dem Spracheingabe/Erkennungsergebnisspeicher 222a gespeichert sind und die Korrekturdatenbank 223a generiert wurde, wie in dem Fall von Ausführungsform 3.
<Erste Operation>
Als erstes wird die erste Operation unter Bezugnahme auf 9 und 9 zehn erläutert, und 17, die in Ausführungsform 6 gezeigt ist. Die Erläuterung der gleichen Operation wie der in Ausführungsform 3 gezeigten wird nachstehend weggelassen.
19 ist ein Diagramm, das ein Beispiel der Speicherung in dem Spracheingabe/Erkennungsergebnisspeicher des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 7 zeigt.
In Schritt ST34 des Flussdiagramms von 9 stellt ein Erkennungsergebnisintegrator 206'' fest, ob es möglich ist oder nicht, eine Textteilung auf einen Server-seitigen Spracherkennungsergebniskandidaten auf der Basis eines generierten Client-seitigen Spracherkennungsergebniskandidaten durchzuführen, in Schritt ST7, durch einen Client-seitigen Spracherkenner 202, eine bestimmte Äußerungsregel, in Schritt ST21, durch einen Eingaberegeldeterminator 211, empfangene Client-seitige Spracherkennungsergebniskandidaten, in Schritt ST8', durch einen Empfänger 204, und ein erfasstes Vergleichsergebnis, in Schritt ST33, von einem Erkennungsergebniskandidatenkorrektor 221.
Zum Beispiel ist, wenn der in 17 gezeigte Client-seitige Spracherkennungsergebniskandidat 414 „SEARCH FOR“ als der Client-seitige Spracherkennungsergebniskandidat eingegeben wird, der von dem Client-seitigen Spracherkenner 202 bereitgestellt wird, und die in 17 gezeigte Server-seitige Spracherkennungsergebnisliste 413 von dem Empfänger 204 eingegeben wird, „SEARCH FOR“ nicht in den Texten der Server-seitigen Spracherkennungsergebniskandidaten 411 und 412 enthalten, die in der vorstehend erwähnten Server-seitigen Spracherkennungsergebnisliste 413 eingeschlossen sind. Weiterhin wird die von dem Eingaberegeldeterminator 211 eingegebene Äußerungsregel „Befehl+ Schlüsselwort“, und das Vergleichsergebnis, dass kein Korrekturkandidat vorhanden ist, von dem Erkennungsergebniskandidatenkorrektor 221 eingegeben. Im Ergebnis stellt der Erkennungsverbindungsintegrator 206'' fest, dass es unmöglich ist, die Texte zu teilen.
Dagegen bestimmt, wenn es nicht möglich ist, eine Textteilung auf einem Server-seitigen Spracherkennungsergebniskandidaten durchzuführen (bei NEIN in Schritt ST34), der Erkennungsergebnisintegrator 206'' in Schritten ST36 und ST37 den Client-seitigen Spracherkennungsergebniskandidaten, der im Schritt ST7 erfasst wird, als ein Spracherkennungsergebnis, und speichert dieses Spracherkennungsergebnis in dem Spracheingabe/Erkennungsergebnisspeicher 222.
Bei dem in 19 gezeigten Beispiel speichert der Erkennungsergebnisintegrator das Spracherkennungsergebnis „SEARCH FOR“, das von dem Client-seitigen Spracherkenner 202 eingegeben wird, als einen Sprachoperationsbefehl 611, der „voice data (1)“ entspricht, welches Sprachdaten 612 sind.
Die vorstehend erwähnte Operation ist die erste Operation des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 7.
<Zweite Operation>
als nächstes wird die zweite Operation unter Bezugnahme auf 11 und 20 erläutert.
20 ist ein Diagramm, das ein Beispiel der Korrekturdatenbank des Spracherkennnungsgeräts des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 7 der vorliegenden Erfindung zeigt.
Wenn ein Server-seitiger Spracherkennungsergebniskandidat und ein Sprachoperationsbefehl in Schritt ST44 des Flussdiagramms von 11 nicht miteinander übereinstimmen (bei NEIN in ST44), addiert der Erkennungsergebniskandidatenkorrektor als Schritt ST45 Information, die zeigt, dass der Server-seitige Spracherkennungsergebniskandidat als ein Korrekturkandidat in Übereinstimmung mit dem Sprachoperationsbefehl gebracht ist, zu der Korrekturdatenbank 241a.
Bei dem in 20 gezeigten Beispiel ist ein in dem Spracheingabe/Erkennungsergebnisspeicher 222 gespeicherter Sprachoperationsbefehl 711 „SEARCH FOR“, und, wenn ein Korrekturkandidat 712, welcher ein Server-seitiger Spracherkennungsergebniskandidat „SYSTEM“ oder „SISTER“ ist, addiert der Erkennungsergebniskandidatenkorrektor als korrekte Daten 710 Information zu der Korrekturdatenbank 221a, die zeigt, dass sie miteinander in Entsprechung gebracht sind.
Die vorstehend erwähnte Operation ist die zweite Operation des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 7.
<Dritte Operation>
Als nächstes wird die dritte Operation unter Bezugnahme auf vorstehend erwähnte 9 erläutert.
Der Erkennungsergebniskandidatenkorrektor 221 vergleicht als Schritt ST32 den Text eines in Schritt ST8' empfangenen Server-seitigen Spracherkennungsergebniskandidaten mit der Korrekturdatenbank 221a. Zum Beispiel vergleicht, wenn die in 17 gezeigte Server-seitige Spracherkennungsergebniskandidatenliste 413 als Server-seitige Spracherkennungsergebniskandidaten eingegeben wird, der Erkennungsergebniskandidatenkorrektor den Text des Server-seitigen Spracherkennungsergebniskandidaten 411 mit den Korrekturkandidaten 712 der korrekten Daten 710, welche die in 20 gezeigte Korrekturdatenbank 221a bilden.
Beim Erkennen, dass der Korrekturkandidat „SYSTEM“ der Korrekturdatenbank 221a in dem Text des Server-seitigen Spracherkennungsergebniskandidaten 411 eingeschlossen ist, gibt der Erkennungsergebniskandidatenkorrektor als ein Vergleichsergebnis beide, den Korrekturkandidaten „SYSTEM“ der Korrekturdatenbank 221a und den Sprachoperationsbefehl „SEARCH FOR“ entsprechend dem Korrekturkandidaten als Schritt ST33 an den Erkennungsergebnisintegrator 206'' aus.
Als nächstes bestimmt der Erkennungsergebnisintegrator 206'' als Schritt ST34 ob es möglich ist oder nicht, eine Textteilung auf einen Server-seitigen Spracherkennungsergebniskandidaten auf der Basis des generierten Client-seitigen Spracherkennungsergebniskandidaten durchzuführen, in Schritt ST7, durch den Client-seitigen Spracherkenner 202, eine bestimmte Äußerungsregel, in Schritt ST21, durch den Eingaberegeldeterminator 211, die empfangenen Server-seitigen Spracherkennungsergebniskandidaten, in Schritt ST8, durch den Empfänger 24, und das eingegebene Vergleichsergebnis, in Schritt ST33, von dem Erkennungsergebniskandidatenkorrektor 221.
Zum Beispiel stellt, wenn der in 17 gezeigte Client-seitige Spracherkennungsergebniskandidat 414 „SEARCH FOR“ als der Client-seitige Spracherkennungsergebniskandidat eingegeben wird, der von dem Client-seitigen Spracherkenner 202 bereitgestellt wird, die Äußerungsregel, die von dem Eingaberegeldeterminator 211 bestimmt wird, „Befehl + Schlüsselwort“ ist, und die in 17 gezeigte Server-seitige Spracherkennungsergebnisliste 413 von dem Empfänger 204 eingegeben wird, da „SEARCH FOR“ nicht in den Texten der Server-seitigen Spracherkennungsergebnisse 411 und 412 der Server-seitigen Spracherkennungsergebnisliste 413 vorhanden ist, sondern „SEARCH FOR“ von dem Erkennungsergebniskandidatenkorrektor 221 als das Vergleichsergebnis eingegeben wird, der Erkennungsergebnisintegrator fest, dass es möglich ist, die Texte zu teilen (bei JA in Schritt ST34).
Der Erkennungsergebnisintegrator 206'' teilt als Schritt ST35 den Text eines Server-seitigen Spracherkennungsergebniskandidaten unter Verwenden des Korrekturkandidaten „SYSTEM“ entsprechend dem Bestimmungsergebnis „SEARCH FOR“ als einer Referenz. Der Erkennungsergebnisintegrator kombiniert weiterhin als Schritt ST24 einen Text nach Teilung auf der Basis der Information über die Äußerungsregel, die von dem Eingaberegeldeterminator 211 eingegeben wird, und dem Sprachoperationsbefehl, der dem Client-seitigen Spracherkennungsergebniskandidaten entspricht, um ein Spracherkennungsergebnis zu generieren, und gibt das Spracherkennungsergebnis als Schritt ST16 an den Ausgeber 207 aus.
Die vorstehend erwähnte Operation ist die dritte Operation des Spracherkennungssystems in Übereinstimmung mit Ausführungsform 3.
Wie vorstehend erwähnt kann das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 7 die gleichen Vorteile bereitstellen wie die durch Ausführungsform 3 bereitgestellten, auch wenn an dem Spracherkennungsgerät 200'' eine auf Englisch geäußerte Sprache eingegeben wird.
Ausführungsform 8.
Obwohl die Verarbeitungsoperationen des Spracherkennungssystems in vorstehend erwähnter Ausführungsform 4 durch Bereitstellen, als einem Beispiel, des Falles erläutert sind, in welchem eine Sprache, welche ein Nutzer auf Japanisch geäußert, eingegeben wird, werden Verarbeitungsoperationen eines Spracherkennungssystems in dieser Ausführungsform 8 durch Bereitstellen, als einem Beispiel, eines Falles erläutert, in welchem eine Sprache, welche ein Nutzer auf Englisch äußert, eingegeben wird. Da die Konfiguration und die Operationen des Spracherkennungssystems in Übereinstimmung mit dieser Ausführungsform 8 die gleichen sind wie die der Konfiguration (siehe 8), welche in Ausführungsform 3 gezeigt ist, und den Operationen (siehe 13), welche in Ausführungsform 4 gezeigt sind, werden die Konfiguration und die Operationen unter Verwenden von 8 und 13 erläutert.
Eine Operation des Spracherkennungssystems zu der Zeit, wenn eine auf Englisch geäußerte Sprache eingegeben wird, wird zusammen mit dem Flussdiagrammen von 13 erläutert, und mit Bezug auf ein konkretes Beispiel von 21 und 22. 21 ist ein Diagramm, das ein Beispiel der Generierung eines Spracherkennungsergebnisses durch das Spracherkennungssystem in Übereinstimmung mit Ausführungsform 8 der vorliegenden Erfindung zeigt, und 22 ist ein Diagramm, das ein Beispiel der Speicherung von Äußerungsregelmustern zeigt.
Als erstes führt in Schritt ST7 des Flussdiagramms von 13 ein Client-seitiger Spracherkenner 202 eine Spracherkennung auf eingegebenen Sprachdaten durch.
Zum Beispiel, wenn bei dem in 21 gezeigten Beispiel der Client-seitige Spracherkenner 202 nur ein richtiges Nomen setzt, welches in einem Adressbuch oder dergleichen registriert ist, und einen Sprachoperationsbefehl als ein zu erkennendes Objekt, führt der Client-seitige Spracherkenner eine Spracherkennung auf von einem Benutzer eingegebene Sprachdaten „Send e-mail to Jones, Happy birthday, Jones.“ durch, erkennt „SEND E-MAIL TO“, welches ein Sprachoperationsbefehl ist, und „JONES“, welches ein richtiges Nomen ist, und erfasst einen Client-seitigen Spracherkennungsergebniskandidaten 814 „SEND E-MAIL TO JONES.“ In dem Beispiel von 21 besteht eine Client-seitige Spracherkennungsergebniskandidatenliste 815 aus dem einzigen Client-seitigen Spracherkennungsergebniskandidaten 814. Der erfasste Client-seitige Spracherkennungsergebniskandidat wird an einen Erkennungsergebnisintegrator 206' und einen Eingaberegeldeterminator 211 ausgegeben.
Als nächstes bezieht sich der Eingaberegeldeterminator 211 in Schritt ST21 auf beides, den Client-seitigen Spracherkennungsergebniskandidaten, der daran von dem Client-seitigen Spracherkenner 202 eingegeben wird, und Äußerungsregelmuster, die in einem Eingaberegelspeicher 212 gespeichert sind, um einen Sprachoperationsbefehl zu verifizieren, und bestimmt die Äußerungsregel der Sprachdaten, die in Schritt ST1 eingegeben werden.
Zum Beispiel wird, wenn ein Vergleich zwischen dem in 21 gezeigten Client-seitigen Spracherkennungsergebniskandidaten 814 „SEND E-MAIL TO JONES.“ und den in 22 gezeigten Äußerungsregelmustern 910 gemacht wird, ein übereinstimmender Sprachoperationsbefehl 911 „SEND E-MAIL TO“ erkannt, und die entsprechende Äußerungsregel 912 „Befehl + richtiges Nomen + freier Satz“ der Spracheingabe wird erfasst. Die erfasste Äußerungsregel der Spracheingabe wird an den Erkennungsergebnisintegrator 206' ausgegeben.
Als nächstes bestimmt in Schritt ST11 ein Erkennungsergebniskandidatenkomparator 205, ob er partielle Texte entdeckt hat, die einen Unterschied aufweisen, und gibt, wenn partielle Texte entdeckt wurden, die einen Unterschied aufweisen (bei JA in Schritt ST11), die partiellen Texte, die einen Unterschied aufweisen, als ein Erkennungsergebnis an den Erkennungsergebnisintegrator 206' als Schritt ST12 aus.
Da in dem Beispiel von 21 zwei Server-seitige Spracherkennungsergebniskandidaten 811 und 812 in einer Server-seitigen Spracherkennungsergebnisliste 813 enthalten sind, vergleicht der Erkennungsergebniskandidatenkomparator „SEND E-MAIL TO JOHN HAPPY BIRTHDAY JOHN“ und „SEND E-MAIL TO JON HAPPY BIRTHDAY JON“, welche die Textinformationsteile der Kandidaten sind, und erkennt, dass zwei Anteile, von denen jeder einen Unterschied aufweist, vorhanden sind, und beide der zwei Anteile den gleichen Text aufweisen („JOHN“ in dem Spracherkennungsergebniskandidaten 811, und „JON“ in dem Spracherkennungsergebniskandidaten 812).
Als nächstes bestimmt der Erkennungsergebnisintegrator 206' in Schritt ST51, ob es möglich ist oder nicht, eine Ersetzung mit einem richtigen Nomen durchzuführen, das in dem Text eines freien Satzes enthalten ist.
Die Bestimmung, ob es möglich ist oder nicht, eine Ersetzung mit einem richtigen Nomen durchzuführen, wird konkret wie nachstehend ausgeführt. In den Beispielen von 21 und 22 bestimmt, wenn der Client-seitige Spracherkennungsergebniskandidat 814 „SEND E-MAIL TO JONES“, der von dem Client-seitigen Spracherkenner 202 bereitgestellt wird, eingegeben wird, und die Server-seitige Spracherkennungsergebniskandidatenliste 813, welche aus dem Server-seitigen Spracherkennungsergebniskandidaten 811 und 812 besteht, von dem Empfänger 204 eingegeben wird, der Erkennungsergebnisintegrator, ob ein Sprachoperationsbefehl „SEND E-MAIL TO“ in den Texten von jedem der Server-seitigen Spracherkennungsergebniskandidaten 811 und 812 enthalten ist.
Beim Feststellen, dass der Sprachoperationsbefehl gemäß der Information über die Äußerungsregel enthalten ist, die von dem Eingaberegeldeterminator 211 eingegeben wird (die Äußerungsregel „Befehl + richtiges Nomen + freier Satz“ der Spracheingabe, welche dem in 22 gezeigten Sprachoperationsbefehl „SEND E-MAIL TO“ entspricht), teilt der Erkennungsergebnisintegrator jeden der Server-seitigen Spracherkennungsergebniskandidaten in einen Text entsprechend einem richtigen Nomen (in dem Beispiel von 21 „JOHN“ des Server-seitigen Spracherkennungsergebniskandidaten 811 und „JON“ des Server-seitigen Spracherkennungsergebniskandidaten 812), und einen Text entsprechend einem freien Satz (im dem Beispiel von 21 „HAPPY BIRTHDAY JOHN“ des Server-seitigen Spracherkennungsergebniskandidaten 811 und „HAPPY BIRTHDAY JON“ des Server-seitigen Spracherkennungsergebniskandidaten 812), unter Verwenden des Textes des Sprachoperationsbefehls als einer Referenz.
Der Erkennungsergebnisintegrator stellt weiterhin fest, ob ein Anteil, der mit dem Text eines richtigen Nomens übereinstimmt, in dem Text vorhanden ist, der dem freien Satz entspricht (in dem Beispiel von 21 bestimmt der Erkennungsergebnisintegrator, dass ein Anteil, der mit dem Text eines richtigen Nomens übereinstimmt („JOHN“ des Spracherkennungsergebniskandidaten 811 und „JON“ des Spracherkennungsergebniskandidaten 812) in dem freien Satz vorhanden sind) . Dann, wenn ein Anteil, der mit dem Text eines richtigen Nomens übereinstimmt, in dem freien Satz vorhanden ist, bestimmt der Erkennungsergebnisintegrator, dass es möglich ist, eine Ersetzung mit dem richtigen Nomen durchzuführen.
Beim Feststellen, dass es möglich ist, eine Ersetzung mit dem richtigen Nomen durchzuführen (bei JA in Schritt ST51), ersetzt der Erkennungsergebnisintegrator als Schritt ST52 das richtigen Nomen, das in dem Text nach Teilung als ein freier Satz enthalten ist, mit dem entsprechenden Text auf der Basis des Erkennungsergebnisses, das von dem Erkennungsergebniskandidatenkomparator 205 eingegeben wird.
In dem Beispiel von 21 ersetzt der Erkennungsergebnisintegrator den Text „JOHN“ entsprechend dem richtigen Nomen, welches nach Teilung als ein freier Satz in dem Text „HAPPY BIRTHDAY JOHN“ enthalten ist, mit dem Text „JONES“ des richtigen Nomens, welches von dem Client-seitigen Spracherkenner 202 erkannt wird, um festzulegen „HAPPY BIRTHDAY JONES.“
Der Erkennungsergebnisintegrator 206' kombiniert als Schritt ST24 den Text nach Teilung und den Sprachoperationsbefehl entsprechend dem Client-seitigen Spracherkennungsergebniskandidaten auf der Basis der Information über die Äußerungsregel, die von dem Eingaberegeldeterminator 211 eingegeben wird, um über ein Spracherkennungsergebnis zu entscheiden.
In dem Beispiel von 21 bestimmt der Erkennungsergebnisintegrator „SEND E-MAIL TO JONES HAPPY BIRTHDAY JONES“, welches durch Kombinieren des Sprachoperationsbefehls „SEND E-MAIL TO“ und des richtigen Nomens „JONES“ erfasst wird, und den Text „HAPPY BIRTHDAY JONES“ entsprechend dem freien Satz auf der Basis der Äußerungsregel „Befehl + richtiges Nomen + freier Satz“, als ein Spracherkennungsergebnis.
Wie vorstehend erwähnt kann das Spracherkennungssystem in Übereinstimmung mit dieser Ausführungsform 8 die gleichen Vorteile bereitstellen wie die durch Ausführungsform 4 bereitgestellten, auch wenn eine auf Englisch geäußerte Sprache an dem Spracherkennungsgerät 200'' eingegeben wird.
Obwohl die Erfindung in ihren bevorzugten Ausführungsformen beschrieben wurde ist es verständlich, dass eine beliebige Kombination von zwei oder mehr der vorstehend erwähnten Ausführungsformen gemacht werden kann, unterschiedliche Änderungen beliebigen Komponenten in Übereinstimmung mit jeder einzelnen der vorstehend erwähnten Ausführungsformen gemacht werden können, und eine beliebige Komponente in Übereinstimmung mit jeder einzelnen der vorstehend erwähnten Ausführungsformen innerhalb des Umfangs der Erfindung weggelassen werden kann.
GEWERBLICHE ANWENDBARKEIT
Wie vorstehend erwähnt können das Spracherkennungssystem und das Spracherkennungsgerät in Übereinstimmung mit der vorliegenden Erfindung auf verschiedene Ausrüstungsteile angewandt werden, die mit einer Spracherkennungsfunktion ausgestattet sind, und, auch wenn eine Eingabe, die eine Vielzahl von Absichten einschließt, durchgeführt wird, ein optimales Spracherkennungsergebnis mit einem hohen Genauigkeitsgrad bereitstellen kann.
Bezugszeichenliste

100: Spracherkennungs-Server,
101: Empfänger,
102: Server-seitiger Spracherkenner,
103: Übermittler,
200, 200': Spracherkennungsgerät,
201: Spracheingeber,
202: Client-seitiger Spracherkenner,
203: Übermittler,
204: Empfänger,
205: Erkennungsergebniskandidatenkomparator,
206, 206', 206'': Erkennungsergebnisintegrator,
207: Ausgeber,
211: Eingaberegeldeterminator,
212: Eingaberegelspeicher,
221: Erkennungsergebniskandidatenkorrektor,
221 a: Korrekturdatenbank, und
222: Spracheingabe/Erkennungsergebnisspeicher.

Claims

Spracherkennungssystem einschließlich eines Server-Geräts (100) und eines Spracherkennungsgeräts (200) auf einer Client-Seite, welches mit dem Server-Gerät (100) verbunden ist, bei dem besagtes Server-Gerät (100) umfasst: einen Server-seitigen Empfänger (101), der Sprachdaten von besagtem Spracherkennungsgerätempfängt; einen Server-seitigen Spracherkenner (102), der eine Spracherkennung auf den Sprachdaten durchführt, die von besagtem Server-seitigem Empfänger empfangen werden, und eine Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten generiert; und einen Server-seitigen Übermittler (103), der besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten, die von besagtem Server-seitigen Spracherkenner (102) generiert werden, an besagtes Spracherkennungsgerät (200) übermittelt, und wobei besagtes Spracherkennungsgerät (200) umfasst: einen Spracheingeber (201), der eine geäußerte Sprache, die darin eingegeben wird, in besagte Sprachdaten konvertiert; einen Client-seitigen Spracherkenner (202), der Spracherkennung auf besagten Sprachdaten durchführt, die von besagtem Spracheingeber (201) konvertiert wurden, und einen Client-seitigen Spracherkennungsergebniskandidaten generiert; einen Client-seitigen Übermittler (203), der besagte Sprachdaten, die von besagtem Spracheingeber (201) konvertiert wurden, an besagtes Server-Gerät (100) übermittelt; einen Client-seitigen Empfänger (204), der besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten empfängt, die von besagtem Server-seitigen Übermittler (103)übermittelt werden; einen Erkennungsergebniskandidatenkomparator (205), der die besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten vergleicht, die von besagtem Client-seitigen Empfänger (204) empfangen werden, um Texte zu erkennen, die einen Unterschied aufweisen; einen Erkennungsergebnisintegrator (206), der besagten Client-seitigen Spracherkennungsergebniskandidaten und die besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten auf der Basis von besagtem Client-seitigen Spracherkennungsergebniskandidaten, besagter Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten und einem Erkennungsergebnis, das von besagtem Erkennungsergebniskandidatenkomparator (205) bereitgestellt wird, integriert, um über ein Spracherkennungsergebnis zu entscheiden; einen Ausgeber (207), der das Spracherkennungsergebnis ausgibt, das der besagte Erkennungsergebnisintegrator (206) entschieden hat; und einen Eingaberegeldeterminator (211), der besagten Client-seitigen Spracherkennungsergebniskandidaten mit Äußerungsregelmustern vergleicht, bei denen in jedem ein vorbestimmtes Schlüsselwort in Zusammenhang mit einer Äußerungsregel besagten Schlüsselworts gebracht ist, und eine Äußerungsregel besagter Sprachdaten bestimmt, und bei dem besagter Erkennungsergebnisintegrator besagten Client-seitigen Spracherkennungsergebniskandidaten und besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten auf der Basis von besagtem Client-seitigen Spracherkennungsergebniskandidaten, besagter Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten, dem Erkennungsergebnis, das von besagtem Erkennungsergebniskandidatenkomparator bereitgestellt wird, und der Äußerungsregel, die von besagtem Eingaberegeldeterminator (211) festgelegt wird, integriert.
Spracherkennungssystem gemäß Anspruch 1, bei dem besagtes Spracherkennungsgerät (200) einen Spracheingabe/Erkennungsergebnisspeicher (222) einschließt, der Sprachdaten, die von besagtem Spracheingeber (201) konvertiert werden, und das Spracherkennungsergebnis speichert, über das von besagtem Erkennungsergebnisintegrator entschieden wird, während sie miteinander in Zusammenhang gebracht werden, und einen Erkennungsergebniskandidatenkorrektor (221), der besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten erfasst, die Sprachdaten entsprechen die in besagtem Spracheingabe/Erkennungsergebnisspeicher (222) gespeichert sind, und eine Datenbank generiert, wenn das Gerät gestartet wird, und der auch die generierte Datenbank mit der besagten Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten vergleicht, der von besagtem Client-seitigen Empfänger (204) empfangen wird, und wobei besagter Erkennungsergebnisintegrator (206) besagten Client-seitigen Spracherkennungsergebniskandidaten und besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten auf der Basis eines Vergleichsergebnisses, das von besagtem Erkennungsergebniskandidatenkorrektor (221) bereitgestellt wird, integriert.
Spracherkennungssystem gemäß Anspruch 1, bei dem besagter Erkennungsergebniskandidatenkomparator (205) besagte Mehrzahl besagter Server-seitiger Spracherkennungsergebniskandidaten vergleicht, die von besagtem Client-seitigen Empfänger (204) empfangen werden, um eine Vielzahl von Texten zu erkennen, die einen Unterschied aufweisen, und feststellt, ob die Vielzahl von erkannten Texte die gleichen Inhalte aufweisen, und besagter Erkennungsergebnisintegrator (206) einen erkannten Text durch ein richtiges Nomen ersetzt basierend auf besagter Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten, wenn besagter Erkennungsergebniskandidatenkomparator (205) feststellt, dass die Vielzahl von dabei erkannten Texten gleiche Inhalte aufweisen.
Spracherkennungsgerät (200) auf einer Client-Seite, welches mit einem Server-Gerät (100) mit einer Spracherkennungsfunktion verbunden ist, wobei besagtes Spracherkennungsgerät (200) umfasst: einen Spracheingeber (201), der eine geäußerte Sprache, die darin eingegeben wird, in Sprachdaten konvertiert; einen Client-seitigen Spracherkenner (202), der Spracherkennung auf besagten Sprachdaten ausführt, die von besagtem Spracheingeber (201) konvertiert werden, und einen Client-seitigen Spracherkennungsergebniskandidaten generiert; einen Client-seitigen Übermittler (203), der besagte Sprachdaten, die von besagtem Spracheingeber (201) konvertiert wurden, an besagtes Server-Gerät (100) übermittelt; einen Client-seitigen Empfänger (204), der eine Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten empfängt, der von besagtem Server-Gerät (100) auf der Basis von besagten Sprachdaten generiert wurde, die von besagtem Client-seitigem Übermittler (203) übermittelt werden; einen Erkennungsergebniskandidatenkomparator (205), der besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten vergleicht, die von besagtem Client-seitigen Empfänger empfangen werden, um Texte zu erkennen, die einen Unterschied aufweisen; einen Erkennungsergebnisintegrator (206), der besagten Client-seitigen Spracherkennungsergebniskandidaten und besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten auf der Basis von besagtem Client-seitigen Spracherkennungsergebniskandidaten, besagter Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten und einem Erkennungsergebnis, das von besagtem Erkennungsergebniskandidatenkomparator (205) bereitgestellt wird, integriert, um über ein Spracherkennungsergebnis zu entscheiden; einen Ausgeber (207), der das Spracherkennungsergebnis ausgibt, das der besagte Erkennungsergebnisintegrator (206) entschieden hat; und einen Eingaberegeldeterminator (211), der besagten Client-seitigen Spracherkennungsergebniskandidaten mit Äu-ßerungsregelmustern vergleicht, bei denen in jedem ein vorbestimmtes Schlüsselwort in Zusammenhang mit einer Äu-ßerungsregel besagten Schlüsselworts gebracht ist, und eine Äußerungsregel besagter Sprachdaten bestimmt, und bei dem besagter Erkennungsergebnisintegrator besagten Client-seitigen Spracherkennungsergebniskandidaten und besagte Mehrzahl von Server-seitigen Spracherkennungsergebniskandidaten auf der Basis von besagtem Client-seitigen Spracherkennungsergebniskandidaten, besagtem Server-seitigen Spracherkennungsergebniskandidaten, dem Erkennungsergebnis, das von besagtem Erkennungsergebniskandidatenkomparator bereitgestellt wird, und der Äußerungsregel, die von besagtem Eingaberegeldeterminator (211) festgelegt wird, integriert.