DE112015003382B4

DE112015003382B4 - Spracherkennungseinrichtung und Spracherkennungsverfahren

Info

Publication number: DE112015003382B4
Application number: DE112015003382.3T
Authority: DE
Inventors: Yusuke Itani; Isamu Ogawa
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-07-23
Filing date: 2015-07-17
Publication date: 2018-09-13
Anticipated expiration: 2035-07-18
Also published as: DE112015003382T5; CN106537494B; JP5951161B2; US20170194000A1; WO2016013503A1; JPWO2016013503A1; CN106537494A

Abstract

Spracherkennungseinrichtung, umfassend
einen Sender, welcher eine Spracheingabe an einen Server sendet;
einen Empfänger, welcher ein erstes Spracherkennungsergebnis empfängt, welches ein Ergebnis aus einer Spracherkennung durch den Server für die vom Sender gesendete Spracheingabe ist;
einen Spracherkenner, welcher Spracherkennung für die Spracheingabe durchführt, um dadurch ein zweites Spracherkennungsergebnis zu erhalten;
einen Sprachregelspeicher, in welchem Sprachregeln gespeichert sind, welche jeweils eine Bildung von Sprachelementen für die Spracheingabe repräsentieren;
einen Sprachregelbestimmungsprozessor, welcher sich auf eine oder mehrere der Sprachregeln bezieht, um dadurch die Sprachregel zu bestimmen, welche mit dem zweiten Spracherkennungsergebnis zusammenpasst;
einen Zustandsbestimmungsprozessor, welcher Korrespondenzbeziehungen zwischen einem Vorhandensein/Nichtvorhandensein des ersten Spracherkennungsergebnisses, einem Vorhandensein/Nichtvorhandensein des zweiten Spracherkennungsergebnisses und einem Vorhandensein/Nichtvorhandensein von mindestens einem der Sprachelemente, welche die Sprachregel bilden, speichert, und welcher aus den Korrespondenzbeziehungen einen Spracherkennungszustand bestimmt, welcher zumindest eines der Sprachelemente anzeigt, für das kein Spracherkennungsergebnis erhalten wurde;
einen Antworttexterzeuger, welcher entsprechend dem durch den Zustandsbestimmungsprozessor bestimmten Spracherkennungszustand einen Antworttext erzeugt, um zumindest nach dem einen der Sprachelemente nachzufragen, für das kein Spracherkennungsergebnis erhalten wurde; und
einen Ausgeber, welcher den Antworttext ausgibt.

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft eine Spracherkennungseinrichtung und ein Spracherkennungsverfahren zum Durchführen einer Erkennungsverarbeitung von gesprochenen Sprachdaten.
Hintergrund zum Stand der Technik
In einer herkömmlichen Spracherkennungseinrichtung, in welcher Spracherkennung durch einen Client und einen Server durchgeführt wird, wie zum Beispiel in Patentliteratur 1 offenbart, wird die Spracherkennung zunächst durch den Client durchgeführt, und, wenn die Erkennungsbewertung eines Spracherkennungsergebnisses von einem Client niedrig und die Erkennungsgenauigkeit als schlecht bestimmt ist, wird die Spracherkennung durch den Server durchgeführt, und das Erkennungsergebnis des Servers eingesetzt.
Zudem offenbart Patentliteratur 1 auch ein Verfahren, in welchem Spracherkennung durch den Client und Spracherkennung durch den Server gleichzeitig parallel durchgeführt werden, und die Erkennungsbewertung des Spracherkennungsergebnisses des Client und die Erkennungsbewertung des Spracherkennungsergebnisses des Servers miteinander verglichen werden, so dass eines des Spracherkennungsergebnisse, dessen Erkennungsbewertung besser ist als das andere, als das Erkennungsergebnis angewandt wird.
Dabei offenbart Patentliteratur 2 als weiteres herkömmliches Beispiel, in welchem Spracherkennung sowohl durch einen Client als auch durch einen Server durchgeführt wird, ein Verfahren, in welchem der Server zusätzlich zu seinem Spracherkennungsergebnis Informationen über Teile der Sprachansage, wie einem Substantiv und einem Postposition-Partikel (im Japanischen), an den Client sendet, und der Client eine Korrektur seines Spracherkennungsergebnisses mittels der Sprachinformationen zu Teilen der Sprachansage, welche vom Client empfangen werden, durchführt, zum Beispiel durch Ersetzen eines Substantivs mit einem Eigennamen.
Die US 8 219 407 B1 offenbart eine Spracherkennungseinrichtung, in der ein erstes und ein zweites Spracherkennungsergebnis erhalten werden. Dabei wird auch eine Sprachregel bestimmt, welche zu einem der Spracherkennungsergebnisse passt.
Die US 2014/0 058 732 A1 beschreibt eine Spracherkennungseinrichtung, in der Sprache mittels eines lokalen Spracherkenners und eines sich auf einem Server befindlichen externen Spracherkenners erkannt wird. Dabei wird eine Sprachregel bestimmt, welche zu dem zweiten Spracherkennungsergebnis passt.
Liste der zitierten Schriften
Patentliteratur

Patentliteratur 1: Japanische Patentanmeldung Offenlegungsschrift Nr. JP 2009 - 237 439 A
Patentliteratur 2: Japanisches Patent Nr. JP 4 902 617 B2

Zusammenfassung der Erfindung
Technisches Problem
Wenn vom Server und dem Client kein Spracherkennungsergebnis zurückkommt, ist eine herkömmliche Spracherkennungseinrichtung vom Server-Client-Typ nicht in der Lage, dem Benutzer irgendeine Spracherkennung mitzuteilen, oder, wenn diese in der Lage ist, dem Benutzer nur das einseitige Ergebnis mitteilt. In diesem Fall kann die Spracherkennungseinrichtung den Benutzer auffordern, erneut zu sprechen. Gemäß der herkömmlichen Spracherkennungseinrichtung muss der Benutzer allerdings von Anfang an neu sprechen, und es besteht somit ein Problem darin, dass der Benutzer stark belastet wird.
Die vorliegende Erfindung wird zur Lösung des vorstehend erläuterten Problems bereitgestellt, und eine Aufgabe der Erfindung besteht darin, eine Spracherkennungseinrichtung bereitzustellen, welche den Benutzer auffordern kann, einen Teil der Sprachansage erneut zu sprechen, so dass die Belastung des Fahrers reduziert wird, wenn vom Server oder dem Client kein Spracherkennungsergebnis zurückkommt.
Lösung des Problems
Zur Lösung des vorstehend erläuterten Problems umfasst eine Spracherkennungseinrichtung der Erfindung Folgendes: einen Sender, welcher eine Spracheingabe an einen Server sendet; einen Empfänger, welcher ein erstes Spracherkennungsergebnis empfängt, welches ein Ergebnis aus der Spracherkennung durch den Server für die Spracheingabe ist, welche vom Sender gesendet wird; einen Spracherkenner, welcher Spracherkennung für die Spracheingabe durchführt, um dadurch ein zweites Spracherkennungsergebnis zu erhalten; einen Sprachregelspeicher, in welchem Sprachregeln gespeichert sind, welche jeweils eine Bildung von Sprachelementen für die Spracheingabe repräsentieren; einen Sprachregelbestimmungsprozessor, welcher eine oder mehrere der Sprachregeln abruft, um dadurch die Sprachregel zu bestimmen, welche mit dem zweiten Spracherkennungsergebnis zusammenpasst; einen Zustandsbestimmungsprozessor, welcher Korrespondenzbeziehungen zwischen einem Vorhandensein/Nichtvorhandensein des ersten Spracherkennungsergebnisses, einem Vorhandensein/Nichtvorhandensein des zweiten Spracherkennungsergebnisses und einem Vorhandensein/Nichtvorhandensein des Sprachelements, welches die Sprachregel bildet, speichert, und aus den Korrespondenzbeziehungen einen Spracherkennungszustand bestimmt, welcher zumindest eines der Sprachelemente anzeigt, dessen Spracherkennungsergebnis nicht erhalten wird, einen Antworttexterzeuger, welcher entsprechend dem durch den Zustandsbestimmungsprozessor bestimmten Spracherkennungszustand einen Antworttext erzeugt, um nach zumindest dem einen Sprachelement nachzufragen, dessen Spracherkennungsergebnis nicht erhalten wird, und einen Ausgeber, welcher den Antworttext ausgibt.
Vorteilhafte Wirkungen der Erfindung
Erfindungsgemäß wird eine solche Wirkung erzielt, dass es selbst wenn vom Server oder dem Client kein Spracherkennungsergebnis bereitgestellt wird, möglich ist, die Belastung des Benutzers zu reduzieren, indem der Teil bestimmt wird, dessen Spracherkennungsergebnis nicht erhalten wird, und indem der Benutzer veranlasst wird, diesen Teil nochmals zu sprechen.
Figurenliste

1 ist ein Konfigurationsdiagramm zum Darstellen eines Konfigurationsbeispiels eines Spracherkennungssystems unter Verwendung einer Spracherkennungseinrichtung gemäß Ausführungsform 1 der Erfindung.
2 ist ein Flussdiagramm (vorderer Teil) zum Darstellen eines Verarbeitungsablaufes der Spracherkennungseinrichtung gemäß Ausführungsform 1 der Erfindung.
3 ist ein Flussdiagramm (letzter Teil) zum Darstellen des Verarbeitungsablaufes der Spracherkennungseinrichtung gemäß Ausführungsform 1 der Erfindung.
4 ist ein Beispiel der Sprachregeln, welche in einem Sprachregelspeicher der Spracherkennungseinrichtung gemäß Ausführungsform 1 der Erfindung gespeichert sind.
5 ist ein Darstellungsdiagramm zum Darstellen einer Zusammenführung eines Spracherkennungsergebnisses eines Servers und eines Spracherkennungsergebnisses eines Client.
6 ist ein Diagramm zum Darstellen von Korrespondenzbeziehungen zwischen einem Spracherkennungszustand, einem Vorhandensein/Nichtvorhandensein des Spracherkennungsergebnisses eines Client, einem Vorhandensein/Nichtvorhandensein des Spracherkennungsergebnisses eines Servers und der Sprachregel.
7 ist ein Diagramm zum Darstellen einer Beziehung zwischen einem Spracherkennungszustand und einem zu erzeugendem Antworttext.
8 ist ein Diagramm zum Darstellen einer Korrespondenzbeziehung zwischen einem festgestellten Zustand der Sprachelemente in einer Sprachregel und einem Spracherkennungszustand.

Beschreibung der Ausführungsformen
Ausführungsform 1
1 ist ein Konfigurationsdiagramm zum Darstellen eines Konfigurationsbeispiels eines Spracherkennungssystems unter Verwendung einer Spracherkennungseinrichtung gemäß Ausführungsform 1 der Erfindung.
Das Spracherkennungssystem ist mit einem Spracherkennungsserver 101 und einer Spracherkennungseinrichtung 102 eines Client konfiguriert.
Der Spracherkennungsserver 101 umfasst einen Empfänger 103, einen Spracherkenner 104 und einen Sender 105.
Der Empfänger 103 empfängt Sprachdaten von der Spracherkennungseinrichtung 102. Der Spracherkenner 104 des Servers erkennt die empfangenen Sprachdaten phonetisch, so dass dadurch ein erstes Spracherkennungsergebnis ausgegeben wird. Der Sender 105 sendet das vom Spracherkenner 104 ausgegebene erste Spracherkennungsergebnis an die Spracherkennungseinrichtung 102.
Dabei umfasst die Spracherkennungseinrichtung 102 des Client einen Spracheingeber 106, einen Spracherkenner 107, einen Sender 108, einen Empfänger 109, einen Erkennungsergebnis-Zusammenführungsprozessor 110, einen Zustandsbestimmungsprozessor 111, einen Antworttexterzeuger 112, einen Ausgeber 113, einen Sprachregelbestimmungsprozessor 114 und einen Sprachregelspeicher 115.
Der Spracheingeber 106 ist eine Einrichtung, welche ein Mikrofon oder dergleichen aufweist, und welche eine von einem Benutzer gesprochene Sprachansage in Datensignale, sogenannte Sprachdaten, umwandelt. Es wird darauf hingewiesen, dass als die Sprachdaten PCM-(Pulse Code Modulation = Pulscodemodulation)-Daten, welche durch Digitalisieren der Sprachsignale erhalten werden, welche von einer Tonaufnahmeeinrichtung erfasst werden, oder dergleichen eingesetzt werden können. Der Spracherkenner 107 erkennt die vom Spracheingeber 106 eingegebenen Daten phonetisch, so dass dadurch ein zweites Spracherkennungsergebnis ausgegeben wird. Die Spracherkennungseinrichtung 102 ist zum Beispiel mit einem Mikroprozessor oder einem DSP (Digital Signal Processor = Digitalsignalprozessor) konfiguriert. Der Spracherkenner 102 kann Funktionen des Sprachregelbestimmungsprozessors 114, des Erkennungsergebnis-Zusammenführungsprozessors 110, des Zustandsbestimmungsprozessors 111, des Antworttexterzeugers 112 und dergleichen aufweisen. Der Sender 108 ist eine Sendeeinrichtung zum Senden der eingegebenen Sprachdaten an den Spracherkennungsserver 101. Der Empfänger 109 ist eine Empfangseinrichtung zum Empfangen des vom Sender 105 des Spracherkennungsservers 101 gesendeten ersten Spracherkennungsergebnisses. Als der Sender 108 und der Empfänger 109 können zum Beispiel ein drahtloser Transceiver oder ein drahtgebundener Transceiver eingesetzt werden. Der Sprachregelbestimmungsprozessor 114 extrahiert ein Schlüsselwort aus dem vom Spracherkenner 107 ausgegebenen zweiten Spracherkennungsergebnis, um dadurch eine Sprachregel der Spracheingabe zu bestimmen. Der Sprachregelspeicher 115 ist eine Datenbank, in welcher Muster von Sprachregeln für die Spracheingabe gespeichert sind.
Der Erkennungsergebnis-Zusammenführungsprozessor 110 führt die Zusammenführung für die Spracherkennungsergebnisse, was später erläutert wird, unter Verwendung der Sprachregel, welche durch den Spracheregelbestimmungsprozessor 114 bestimmt wird, des ersten Spracherkennungsergebnisses (falls vorhanden), welches der Empfänger 109 vom Spracherkennungsserver 101 empfangen hat, und des zweiten Spracherkennungsergebnisses (falls vorhanden) vom Spracherkenner 107durch. Dann gibt der Erkennungsergebnis-Zusammenführungsprozessor 110 ein zusammengeführtes Ergebnis für die Spracherkennungsergebnisse aus. Das zusammengeführte Ergebnis enthält Informationen über das Vorhandensein/Nichtvorhandensein des ersten Spracherkennungsergebnisses und das Vorhandensein/Nichtvorhandensein des zweiten Spracherkennungsergebnisses.
Der Zustandsbestimmungsprozessor 111 beurteilt, ob ein Befehl für das System festgestellt werden kann oder nicht, auf Grundlage der Informationen über das Vorhandensein/Nichtvorhandensein der Client- und Serverspracherkennungsergebnisse, welche in dem vom Erkennungsergebnis-Zusammenführungsprozessor 110 zusammengeführten Ergebnis enthalten sind. Wenn ein Befehl für das System nicht festgestellt wird, bestimmt der Zustandsbestimmungsprozessor 111 einen Spracherkennungszustand, welchem das zusammengeführte Ergebnis entspricht. Dann gibt der Zustandsbestimmungsprozessor 111 den bestimmten Spracherkennungszustand an den Antworttexterzeuger 112 aus. Dabei, wenn der Befehl für das System festgestellt wird, gibt der Zustandsbestimmungsprozessor den festgestellten Befehl an das System aus.
Der Antworttexterzeuger 112 erzeugt einen Antworttext entsprechend dem vom Zustandsbestimmungsprozessor 111 ausgegebenem Spracherkennungszustand, und gibt den Antworttext an den Ausgeber 113 aus. Der Ausgeber 113 ist ein Anzeigetreiber zum Ausgeben des eingegebenen Antworttextes auf einer Anzeige oder dergleichen, und/oder ein Lautsprecher oder eine Schnittstelleneinrichtung zum Ausgeben des Antworttextes als Sprache.
Anschließend werden Funktionsweisen der Spracherkennungseinrichtung 102 gemäß Ausführungsform 1 unter Bezugnahme auf 2 und 3 erläutert.
2 und 3 sind ein Flussdiagramm zum Darstellen des Verarbeitungsablaufes der Spracherkennungseinrichtung gemäß Ausführungsform 1.
Zunächst wandelt in Schritt S101 unter Verwendung eines Mikrophons oder dergleichen der Spracheingeber 106 die vom Benutzer gesprochene Sprache in Sprachdaten um, und gibt dann die Sprachdaten an den Spracherkenner 107 und den Sender 108 aus.
Dann sendet der Sender 108 in Schritt S102 die vom Spracheingeber 106 eingegebenen Sprachdaten an den Spracherkennungsserver 101.
Die folgenden Schritte S201 bis S203 dienen der Verarbeitung durch den Spracherkennungsserver 101.
Zunächst, wenn der Empfänger 103 die von der Spracherkennungseinrichtung 102 des Client gesendeten Sprachdaten empfängt, gibt der Spracherkennungsserver 101 in Schritt S201 die empfangenen Sprachdaten an den Spracherkenner 104 des Servers aus.
Hinsichtlich der vom Empfänger 103 eingegebenen Sprachdaten führt der Spracherkenner 104 des Servers in Schritt S202 dann Freitext-Spracherkennung durch, deren Erkennungsziel ein beliebiger Satz ist, und gibt Textinformationen, welche ein Erkennungsergebnis sind, welches als das Ergebnis dieser Erkennung erhalten wird, an den Sender 105 aus. Das Verfahren der Freitext-Spracherkennung verwendet zum Beispiel eine Diktiertechnik durch kontinuierliche N-Gramm-Spracherkennung. Insbesondere führt der Spracherkenner 104 des Servers Spracherkennung für die Sprachdaten „Kenji san ni meeru, ima karo kaeru“ [das heißt, „Email Herr Kenji, ich fahre jetzt zurück“], welche von der Spracherkennungseinrichtung 102 des Client empfangen werden, aus, und gibt anschließend eine Spracherkennungsliste aus, in welcher zum Beispiel „Kenji san ni meiru, ima karo kaeru“ [das heißt „Ich fühle mich von Staatsanwalt niedergeschlagen, ich fahre jetzt zurück“] als ein Spracherkennungskandidat enthalten ist. Es wird darauf hingewiesen, dass es wie in diesem Spracherkennungsergebniskandidaten gezeigt, dann wenn ein Personenname, ein Befehlsname oder der gleichen in den Sprachdaten enthalten ist, Fälle gibt, in welchen das Spracherkennungsergebnis des Servers einen Erkennungsfehler enthält, da dessen Spracherkennung schwierig ist.
Zuletzt sendet der Sender 105 in Schritt S203 das durch den Spracherkenner des Servers 104 ausgegebene Spracherkennungsergebnis als das erste Spracherkennungsergebnis an die Spracherkennungseinrichtung des Client 102, so dass die Verarbeitung beendet wird.
Anschließend geht die Beschreibung zurück zu den Operationen der Spracherkennungseinrichtung 102.
In Schritt S103 führt der Spracherkenner 107 des Client hinsichtlich der vom Spracheingeber 106 eingegeben Sprachdaten Spracherkennung zur Erkennung eines Schlüsselwortes, wie einen Sprachaktivierungsbefehl oder einen Personennamen durch, und gibt Textinformationen eines als das Ergebnis dieser Erkennung erhaltenen Erkennungsergebnisses an den Erkennungsergebnis-Zusammenführungsprozessor 110 als das zweite Spracherkennungsergebnis aus. Als das Spracherkennungsverfahren für das Schlüsselwort kann zum Beispiel eine Satzerkennungstechnik verwendet werden, bei welcher ein Satz extrahiert wird, der auch ein Postposition-Partikel (im Japanischen) enthält. Der Spracherkenner 107 des Client speichert ein Erkennungswörterbuch, in welchem Sprachaktivierungsbefehle und Informationen von Personennamen registriert und aufgelistet sind.
Das Erkennungsergebnis des Spracherkenners 107 sind ein Sprachaktivierungsbefehl und Informationen über einen Personennamen, welche unter Verwendung eines in dem Server enthaltenen Erkennungswörterbuchs mit umfangreichem Vokabular schwer zu erkennen sind.
Wenn der Benutzer die Sprachansage „Kenji san ni meeru, ima karo kaeru“ [„Email Herr Kenji, ich fahre jetzt zurück“] eingibt, erkennt der Spracherkenner 107 „Email“ als einen Sprachaktivierungsbefehl und „Kenji“ als Informationen über einen Personennamen, so dass dadurch ein Spracherkennungsergebnis ausgegeben wird, welches „Email Herr Kenji“ als einen Spracherkennungskandidaten enthält.
Dann gleicht der Sprachregelbestimmungsprozessor 114 in Schritt S104 das vom Spracherkenner 107 eingegebene Spracherkennungsergebnis mit den in dem Sprachregelspeicher 115 gespeicherten Sprachregeln ab, so dass dadurch die Sprachregel bestimmt wird, welche mit dem Spracherkennungsergebnis zusammenpasst.
4 ist ein Beispiel der Sprachregeln, welche in dem Sprachregelspeicher 115 der Spracherkennungseinrichtung 102 gespeichert sind, gemäß Ausführungsform 1 der Erfindung.
In 4 sind die Sprachregeln entsprechend den Sprachaktivierungsbefehlen gezeigt. Die Sprachregel ist aus einem Eigennamen gebildet, welcher Personennameninformationen, einen Befehl und einen Freitext oder ein Muster einer Kombination davon enthält. Der Sprachregelbestimmungsprozessor 114 vergleicht den Spracherkennungsergebniskandidaten „Kenji san ni meeru“ [„Email Herr Kenji“], welcher vom Spracherkenner 107 eingegeben wird, mit einem oder mehreren der Muster der in dem Sprachregelspeicher 115 gespeicherten Sprachregeln, und wenn der Sprachaktivierungsbefehl „san ni meeru“ [Email irgendjemand“] als mit dem Muster zusammenpassend gefunden wird, akquiriert der Sprachregelbestimmungsprozessor Informationen über „Eigenname + Befehl +Freitext“ als die Sprachregel der Spracheingabe entsprechend dieses Sprachaktivierungsbefehls. Dann gibt der Sprachregelbestimmungsprozessor 114 die akquirierten Informationen der Sprachregel an den Erkennungsergebnis-Zusammenführungsprozessor 110 und den Zustandsbestimmungsprozessor 111 aus.
Dann gibt der Empfänger 109 auf Empfangen des vom Server 101 gesendeten ersten Spracherkennungsergebnisses das erste Spracherkennungsergebnis an den Erkennungsergebnis-Zusammenführungsprozessor 110 aus.
Dann bestätigt der Erkennungsergebnis-Zusammenführungsprozessor in 110 Schritt S106, ob sowohl das Spracherkennungsergebnis des Client als auch das Spracherkennungsergebnis des Servers vorhanden sind. Wenn beide vorhanden sind, wird die folgende Verarbeitung durchgeführt.
In Schritt S107 ruft der Erkennungsergebnis-Zusammenführungsprozessor 110 dann die vom Sprachregelbestimmungsprozessor 114 eingegebene Sprachregel ab, um dadurch zu beurteilen, ob die Zusammenführung des ersten Spracherkennungsergebnisses vom Spracherkennungsserver 101, welches vom Empfänger 109 eingegeben wird, und das zweite Spracherkennungsergebnis, welches vom Spracherkenner 107 eingegeben wird, zulässig ist oder nicht. Ob deren Zusammenführung zulässig ist oder nicht wird in einer solchen Weise beurteilt, dass, wenn ein in einer Sprachregel erfüllter Befehl für gewöhnlich in dem ersten Spracherkennungsergebnis und dem zweiten Spracherkennungsergebnis enthalten wird, beurteilt wird, dass deren Zusammenführung zulässig ist, und wenn in keinem davon ein Befehl enthalten ist, beurteilt wird, dass deren Zusammenführung nicht zulässig ist. Wenn die Zusammenführung zulässig ist, geht die Verarbeitung zu Schritt S108 durch „Ja“-Abzweigung, und wenn die Zusammenführung nicht zulässig ist, geht die Verarbeitung zu Schritt S110 durch „Nein“-Abzweigung.
Insbesondere wird das Bestimmen, ob die Zusammenführung zulässig ist oder nicht in der folgenden Weise durchgeführt. Mit der vom Sprachregelbestimmungsprozessor 114 ausgegebenen Sprachregel bestätigt der Erkennungsergebnis-Zusammenführungsprozessor 110, dass der Befehl „Email“ in der Buchstabenkette vorhanden ist. Dann sucht der Erkennungsergebnis-Zusammenführungsprozessor die Position entsprechend „Email“ in dem Text des Serverspracherkennungsergebnisses und beurteilt, wenn „Email“ nicht in dem Text enthalten ist, dass die Zusammenführung nicht zulässig ist.
Wenn zum Beispiel „Email“ als ein Spracherkennungsergebnis durch den Spracherkenner 107 eingegeben wird und „meiru“ [„ich fühle mich niedergeschlagen“] als ein Spracherkennungsergebnis des Servers eingegeben wird, passt der Text des Spracherkennungsergebnisses des Servers nicht mit der Sprachregel zusammen, welche vom Sprachregelbestimmungsprozessor 114 eingegeben wird, da „Email“ nicht in dem Text enthalten ist. Somit beurteilt der Erkennungsergebnis-Zusammenführungsprozessor 110, dass die Zusammenführung nicht zulässig ist.
Wenn bestimmt wird, dass die Zusammenführung nicht zulässig ist, beurteilt der Erkennungsergebnis-Zusammenführungsprozessor 110, dass er kein Erkennungsergebnis vom Server erhalten konnte. Somit sendet der Erkennungsergebnis-Zusammenführungsprozessor das vom Spracherkenner 107 eingegebene Spracherkennungsergebnis und Informationen, dass er die Informationen vom Server nicht erhalten konnte, an den Zustandsbestimmungsprozessor 111. Zum Beispiel werden „Email“ als ein Spracherkennungsergebnis, welches vom Spracherkenner 107 eingegeben wird, „Spracherkennungsergebnis des Client: Vorhanden“ und „Spracherkennungsergebnis des Servers: Nichtvorhanden“ an den Zustandsbestimmungsprozessor 111 gesendet.
Wenn bestimmt wird, dass die Zusammenführung zulässig ist, spezifiziert der Erkennungsergebnis-Zusammenführungsprozessor 110 die Position des Befehls im nächsten Schritt S108, als Verarbeitung vor der Zusammenführung des ersten Spracherkennungsergebnisses durch den Spracherkennungsserver 101, welches vom Empfänger 109 eingegeben wird, und dem zweiten Spracherkennungsergebnis, welche vom Spracherkenner 107 eingegeben wird. Zunächst wird auf Grundlage der vom Sprachregelbestimmungsprozessor 114 ausgegebenen Sprachregel durch den Erkennungsergebnis-Zusammenführungsprozessor bestätigt, dass der Befehl „Email“ in der Buchstabenkette vorhanden ist, und sucht dann „Email“ in dem Text des Spracherkennungsergebnisses des Servers, um dadurch die Position von „Email“ zu spezifizieren. Dann bestimmt der Erkennungsergebnis-Zusammenführungsprozessor basierend auf dem „Eigennamen + Befehl + Freitext“ als die Sprachregel, dass eine Buchstabenkette nach der Position des Befehls „Email“ ein Freitext ist.
Dann wird in Schritt S109 durch den Erkennungsergebnis-Zusammenführungsprozessor 110 das Spracherkennungsergebnis des Servers und das Spracherkennungsergebnis des Client zusammengeführt. Zunächst nimmt der Erkennungsergebnis-Zusammenführungsprozessor 110 für die Sprachregel den Eigennamen und den Befehl vom Spracherkennungsergebnis des Client an, und nimmt den Freitext vom Spracherkennungsergebnis des Servers an. Dann wendet der Prozessor den Eigennamen, den Befehl und den Freitext auf die entsprechenden Sprachelemente in der Sprachregel an. Hier wird die vorstehende Verarbeitung als Zusammenführung bezeichnet.
5 ist ein Darstellungsdiagramm zum Darstellen der Zusammenführung des Spracherkennungsergebnisses des Servers und des Spracherkennungsergebnisses des Client.
Wenn das Spracherkennungsergebnis des Client „Kenji san ni meeru“ [„Email Herr Kenji“] und das Spracherkennungsergebnis des Servers „Kenji san ni meiru, ima karo kaeru“ [„Email an Staatsanwalt, Ich fahre jetzt zurück“] ist, nimmt der Erkennungsergebnis-Zusammenführungsprozessor 110 aus dem Spracherkennungsergebnis des Client „Kenji“ als den Eigennamen und „Email“ als den Befehl an, und nimmt „ima karo kaeru“ [„Ich fahre jetzt zurück“] als den Freitext vom Spracherkennungsergebnis des Servers an. Dann wendet der Prozessor die so angenommene Buchstabenketten auf die Sprachelemente in der der Sprachregel des Eigennamens, Befehls und Freitexts an, so dass dadurch ein zusammengeführtes Ergebnis „Email Herr Kenji, Ich fahre jetzt zurück“ erhalten wird.
Dann gibt der Erkennungsergebnis-Zusammenführungsprozessor 110 das zusammengeführte Ergebnis und Informationen, dass beide erkannten Ergebnisse des Client und des Servers erhalten sind, an den Zustandsbestimmungsprozessor 111 aus. Zum Beispiel das zusammengeführte Ergebnis „Email Herr Kenji, Ich fahre jetzt zurück“, „Spracherkennungsergebnis des Client: Vorhanden“, und Spracherkennungsergebnis des Servers: Vorhanden“ wird an den Zustandsbestimmungsprozessor 111 gesendet.
Dann beurteilt der Zustandsbestimmungsprozessor 111 in Schritt S110, ob ein Spracherkennungszustand bestimmt werden kann, auf Grundlage des Vorhandenseins/Nichtvorhandenseins des Spracherkennungsergebnisses des Client und des Vorhandenseins/Nichtvorhandenseins des Spracherkennungsergebnisses des Servers, welche durch den Erkennungsergebnis-Zusammenführungsprozessor 110 ausgegeben werden, und der Sprachregel.
6 ist ein Diagramm zum Darstellen von Korrespondenzbeziehungen zwischen dem Spracherkennungszustand, dem Vorhandensein/Nichtvorhandensein des Spracherkennungsergebnisses des Servers, dem Vorhandensein/Nichtvorhandenseins des Spracherkennungsergebnisses des Client und der Sprachregel.
Der Spracherkennungszustand zeigt an, ob ein Spracherkennungsergebnis für das Sprachelement in der Sprachregel erhalten ist oder nicht. Der Zustandsbestimmungsprozessor 111 speichert die Korrespondenzbeziehungen, in welchen jeder Spracherkennungszustand nur durch das Vorhandensein/Nichtvorhandensein des Spracherkennungsergebnisses des Servers, das Vorhandensein/Nichtvorhandensein des Spracherkennungsergebnisses des Client und der Sprachregel bestimmt wird, durch Verwendung einer Korrespondenztabelle wie in 6 gezeigt. Mit anderen Worten werden die Korrespondenzen zwischen dem Vorhandensein/Nichtvorhandensein des Spracherkennungsergebnisses des Servers und dem Vorhandensein/Nichtvorhandensein jedes Sprachelements in der Sprachregel vorherbestimmt, in einer solchen Weise, dass dann, wenn vom Server kein Spracherkennungsergebnis bereitgestellt ist, und „Freitext“ in der Sprachregel enthalten ist, bestimmt wird, dass dies dem Fall „Kein Freitext“ entspricht. Aus diesem Grund ist es möglich, das Sprachelement zu spezifizieren, dessen Spracherkennungsergebnis nicht erhalten wird, aus den Informationen über das Vorhandensein/Nichtvorhandensein jedes Spracherkennungsergebnisses vom Server und dem Client.
Zum Beispiel beim Empfangen der Informationen „Sprachregel: Eigenname + Befehl + Freitext“, „Spracherkennungsergebnis des Client: Vorhanden“ und „Spracherkennungsergebnis des Servers: Vorhanden“, bestimmt der Zustandsbestimmungsprozessor 111, dass der Spracherkennungszustand S1 ist, auf Grundlage der gespeicherten Korrespondenzbeziehungen. Es wird darauf hingewiesen, dass in 6 der Spracherkennungszustand S4 der Situation entspricht, dass kein Spracherkennungszustand erhalten werden konnte.
Dann beurteilt der Zustandsbestimmungsprozessor 111 in Schritt S111, ob ein Befehl für das System festgestellt werden kann oder nicht. Wenn der Spracherkennungszustand zum Beispiel S1 ist, stellt der Zustandsbestimmungsprozessor das zusammengeführte Ergebnis „Email Herr Kenji, Ich fahre jetzt zurück“ als den Befehl für das System fest, und geht dann zur Verarbeitung von Schritt S112 durch „Ja“-Abzweigung.
Dann wird in Schritt S112 durch den Zustandsbestimmungsprozessor 111 der Befehl für das System „Email Herr Kenji, Ich fahre jetzt zurück“ an das System ausgegeben.
Anschließend folgt eine Beschreibung der Operationen in einem Fall, wenn das Spracherkennungsergebnis des Client bereitgestellt ist, aber kein Spracherkennungsergebnis des Servers bereitgestellt ist.
In Schritt S106, wenn vom Server kein Spracherkennungsergebnis bereitgestellt ist, zum Beispiel, wenn vom Server für eine spezifizierte Zeit von T Sekunden keine Antwort vorhanden ist, sendet der Empfänger 109 Informationen, welche das Nichtvorhandensein des Spracherkennungsergebnisses des Servers anzeigen, an den Erkennungsergebnis-Zusammenführungsprozessor 110.
Der Erkennungsergebnis-Zusammenführungsprozessor 110 bestätigt, ob sowohl das Spracherkennungsergebnis des Client als auch das Spracherkennungsergebnis des Servers vorhanden ist, und wenn das Spracherkennungsergebnis des Servers nicht vorhanden ist, geht die Verarbeitung zu Schritt S115 ohne Durchführung der Verarbeitung in den Schritten S107 bis S109.
Dann wird in Schritt S115 vom Erkennungsergebnis-Zusammenführungsprozessor 110 bestimmt, ob das Spracherkennungsergebnis des Client vorhanden ist oder nicht, und wenn das Spracherkennungsergebnis des Client vorhanden ist, gibt dieser das zusammengeführte Ergebnis an den Zustandsbestimmungsprozessor 111 aus und geht zur Verarbeitung von Schritt S110 durch „Ja“-Abzweigung. Hier ist das Spracherkennungsergebnis des Servers nicht vorhanden, so dass das zusammengeführte Ergebnis als das Spracherkennungsergebnis des Client gegeben ist. Zum Beispiel „Zusammengeführtes Ergebnis: ‚Email an Herr Kenji‘ “, „Spracherkennungsergebnis des Client: Vorhanden“ und „Spracherkennungsergebnis des Servers: Nicht Vorhanden“, werden an den Zustandsbestimmungsprozessor 111 ausgegeben.
Dann wird in Schritt S110 durch den Zustandsbestimmungsprozessor 111 ein Spracherkennungszustand bestimmt, unter Verwendung der Informationen über das Spracherkennungsergebnis des Client und des Spracherkennungsergebnisses des Servers, welche durch den Erkennungsergebnis-Zusammenführungsprozessor 110 ausgegeben werden, und der Sprachregel, welche durch den Sprachregelbestimmungsprozessor 114 ausgegeben wird. Hier sind „Spracherkennungszustand des Servers: Nicht Vorhanden“ und „Sprachregel: Eigenname + Befehl + Freitext“ gegeben, so dass unter Bezugnahme auf 6 bestimmt wird, dass der Spracherkennungszustand S2 ist.
Dann wird in Schritt S111 durch den Zustandsbestimmungsprozessor 111 beurteilt, ob ein Befehl für das System festgestellt werden kann oder nicht. Insbesondere beurteilt der Zustandsbestimmungsprozessor 111, wenn der Spracherkennungszustand S1 ist, dass ein Befehl für das System festgestellt ist. Hier ist der in Schritt S110 erhaltene Spracherkennungszustand S2, so dass der Zustandsbestimmungsprozessor 111 beurteilt, dass ein Befehl für das System nicht festgestellt ist, und gibt das Spracherkennungsergebnis S2 an den Antworttexterzeuger 112 aus. Zudem gibt der Zustandsbestimmungsprozessor 111, wenn ein Befehl für das System nicht festgestellt werden kann, das Spracherkennungsergebnis S2 an den Spracheingeber 106 aus, und geht dann zur Verarbeitung zu Schritt S113 durch „Nein“-Abzweigung.
Dies dient dazu, den Spracheingeber 106 anzuweisen, anschließend Sprachdaten der nächsten Spracheingabe, welche ein Freitext ist, an den Server zu senden.
Dann erzeugt der Antworttexterzeuger 112 in Schritt S113 auf Grundlage des Spracherkennungszustands, welcher durch den Zustandsbestimmungsprozessor 111 ausgegeben wird, den Antworttext, um den Benutzer aufzufordern, zu antworten.
7 ist ein Diagramm zum Darstellen einer Beziehung zwischen dem Spracherkennungszustand und dem zu erzeugenden Antworttext.
Der Antworttext weist eine Nachricht auf, um den Benutzer über das Sprachelement, dessen Spracherkennungsergebnis erhalten ist, zu informieren, und um den Benutzer aufzufordern, über das Sprachelement zu sprechen, dessen Spracherkennungsergebnis nicht erhalten ist. In dem Fall des Spracherkennungszustands S2 wird, da der Eigenname und der Befehl festgestellt sind, aber kein Spracherkennungsergebnis für einen Freitext vorhanden ist, ein Antworttext zum Auffordern des Benutzers, nur einen Freitext zu sprechen, an den Ausgeber 113 ausgegeben. Wie zum Beispiel in S2 in 7 gezeigt, gibt der Antworttexterzeuger 112 einen Antworttext „Email an Herrn Kenji, bitte Textkörper erneut sprechen“ an den Ausgeber 113 aus.
In Schritt S114 gibt der Ausgeber 113 über eine Anzeige, einen Lautsprecher und/oder dergleichen den Antworttext „Email an Herrn Kenji, bitte Textkörper erneut sprechen“, welcher durch den Antworttexterzeuger 112 ausgegeben ist ist, aus.
Wenn der Benutzer auf Empfangen des Antworttextes erneut spricht „Ich fahre jetzt zurück“ wird die bereits erläuterte Verarbeitung in Schritt S101 durchgeführt. Es ist zu beachten, dass der Spracheingeber 106 den Spracherkennungszustand S2, welcher durch den Zustandsbestimmungsprozessor 111 ausgegeben wird, bereits empfangen hat, und somit weiß, dass die als nächstes kommenden Sprachdaten ein Freitext sind. Somit gibt der Spracheingeber 106 die Sprachdaten an den Sender 108 aus, gibt diese allerdings nicht an den Spracherkenner 107 des Client aus. Dementsprechend wird die Verarbeitung in Schritten S103 und S104 nicht durchgeführt.
Die Verarbeitung in Schritten S201 bis S203 in dem Server ist ähnlich der bereits erläuterten, so dass auf deren Beschreibung hier verzichtet wird.
In Schritt S105 empfängt der Empfänger 109 das vom Server 101 gesendet Spracherkennungsergebnis und gibt dann das Spracherkennungsergebnis an den Erkennungsergebnis-Zusammenführungsprozessor 110 aus.
In Schritt S106 bestimmt der Erkennungsergebnis-Zusammenführungsprozessor, dass das Spracherkennungsergebnis vom Server vorhanden ist, aber das Spracherkennungsergebnis des Client nicht vorhanden ist, und geht zur Verarbeitung von Schritt S115 durch „Nein“-Abzweigung.
Dann gibt der Erkennungsergebnis-Zusammenführungsprozessor 110 in Schritt S115, da das Spracherkennungsergebnis des Client nicht vorhanden ist, das Spracherkennungsergebnis des Servers an den Sprachregelbestimmungsprozessor 114 aus, und geht zur Verarbeitung zu Schritt S116 durch „Nein“-Abzweigung.
Dann bestimmt der Sprachregelbestimmungsprozessor 114 in Schritt S116 die wie vorstehend erläuterte Sprachregel und gibt die bestimmte Sprachregel an den Erkennungsergebnis-Zusammenführungsprozessor 110 aus. Dann gibt der Erkennungsergebnis-Zusammenführungsprozessor 110 „Spracherkennungsergebnis des Servers: Vorhanden“ und „Zusammengeführtes Ergebnis: ‚Ich fahre jetzt zurück‘ “ an den Zustandsbestimmungsprozessor 111 aus. Da hier kein Spracherkennungsergebnis des Client vorhanden ist, ist das Spracherkennungsergebnis des Servers hier als das zusammengeführte Ergebnis ohne Veränderung gegeben.
Dann wird durch den Zustandsbestimmungsprozessor 111, in welchem der Spracherkennungszustand vor dem erneuten Sprechen gespeichert wird, der Spracherkennungszustand vom zusammengeführten Ergebnis, welches durch den Erkennungsergebnis-Zusammenführungsprozessor 110 ausgegeben wird, aktualisiert, und die Informationen „Spracherkennungsergebnis des Servers: Vorhanden“ ausgegeben. Das Hinzufügen der Informationen „Spracherkennungsergebnis des Servers: Vorhanden“ zum vorangehenden Spracherkennungszustand S2 resultiert darin, dass sowohl das Spracherkennungsergebnis des Client und das Spracherkennungsergebnis des Servers vorhanden sind, so dass der Spracherkennungszustand unter Bezugnahme auf 6 von S2 zu S1 aktualisiert wird. Dann wird das aktuelle zusammengeführte Ergebnis „Ich fahre jetzt zurück“ auf den Teil des Freitexts angewendet, so dass „Email Herr Kenji, Ich fahre jetzt zurück“ als der Befehl für das System festgestellt wird.
Dann wird in Schritt S111, da der Spracherkennungszustand S1 ist, durch den Zustandsbestimmungsprozessor 111 bestimmt, dass ein Befehl für das System festgestellt werden kann, so dass es möglich ist, den Befehl für das System auszugeben.
Dann sendet in Schritt S112 der Zustandsbestimmungsprozessor 111 den Befehl für das System „Email Herr Kenji, ich fahre jetzt zurück“ an das System.
Es wird darauf hingewiesen, dass in Schritt S106, wenn das Spracherkennungsergebnis des Servers nicht in einer spezifizierten Zeit von T Sekunden erhalten werden kann, nachdem die Bestätigung N Male wiederholt wird, da in Schritt 110 kein wesentlicher Zustand bestimmt werden kann, aktualisiert der Zustandsbestimmungsprozessor 111 den Spracherkennungszustand von S2 in S4. Der Zustandsbestimmungsprozessor 111 gibt den Spracherkennungszustand S4 an den Antworttexterzeuger 112 aus, und löscht den Spracherkennungszustand und das zusammengeführte Ergebnis. Der Antworttexterzeuger 112 ruft 7 ab, um dadurch einen Antworttext zu erzeugen „Diese Sprachansage kann nicht erkannt werden“ entsprechend dem durch den Erkennungsergebnis-Zusammenführungsprozessor 110 ausgegebenen Spracherkennungszustand S4, und gibt den Antworttext an den Ausgeber 113 aus.
Dann führt der Ausgeber 113 in Schritt S117 die Meldung des Antworttextes aus. Dieser gibt zum Beispiel die Meldung „Diese Sprachansage kann nicht erkannt werden“ an den Benutzer aus.
Anschließend erfolgt eine Beschreibung eines Falls, in welchem das Spracherkennungsergebnis des Servers bereitgestellt ist, aber das Spracherkennungsergebnis des Client nicht bereitgestellt ist.
Schritte S101 bis S104 und S201 bis S203 sind gleich wie jene in dem Fall, wenn das Spracherkennungsergebnis des Client bereitgestellt ist, aber das Spracherkennungsergebnis des Servers nicht bereitgestellt ist, so dass auf deren Beschreibung hier verzichtet wird.
Zunächst wird in Schritt S106 durch den Erkennungsergebnis-Zusammenführungsprozessor 1 bestätigt, ob sowohl das Spracherkennungsergebnis des Client und das Spracherkennungsergebnis des Servers vorhanden sind. Hier ist das Spracherkennungsergebnis des Servers vorhanden, aber das Spracherkennungsergebnis des Client nicht vorhanden, so dass der Erkennungsergebnis-Zusammenführungsprozessor 110 die Zusammenführungsverarbeitung nicht durchführt.
Dann bestätigt der Erkennungsergebnis-Zusammenführungsprozessor 110 in Schritt S115, ob das Spracherkennungsergebnis des Client vorhanden ist oder nicht. Wenn das Spracherkennungsergebnis des Client nicht vorhanden ist, gibt der Erkennungsergebnis-Zusammenführungsprozessor 110 das Spracherkennungsergebnis des Servers an den Sprachregelbestimmungsprozessor 114 aus, und geht zur Verarbeitung von Schritt S116 durch „Nein“-Abzweigung.
Dann wird in Schritt S116 durch den Sprachregelbestimmungsprozessor 114 die Sprachregel für das Spracherkennungsergebnis des Servers bestimmt. Zum Beispiel prüft der Sprachregelbestimmungsprozessor 114 für das Ergebnis „Kenji san ni meiru, ima karo kaeru“ [„Ich fühle mich vom Staatsanwalt niedergeschlagen, Ich fahre jetzt zurück“], ob das Ergebnis einen Teil aufweist, welcher mit dem Sprachaktivierungsbefehl zusammenpasst, welcher in dem Sprachregelspeicher 115 gespeichert ist, um dadurch die Sprachregel zu bestimmen. Stattdessen sucht der Sprachregelbestimmungsprozessor für die Spracherkennungsergebnisliste des Servers den Sprachaktivierungsbefehl, um zu prüfen, ob die Liste einen Teil aufweist, in welchem der Sprachaktivierungsbefehl mit hoher Wahrscheinlichkeit enthalten ist, um dadurch die Sprachregel zu bestimmen. Hier berücksichtigt der Sprachregelbestimmungsprozessor 114 aus der Spracherkennungsergebnisliste „Email an Staatsanwalt“ und dergleichen, dass diese eine hohe Wahrscheinlichkeit haben, mit dem Sprachaktivierungsbefehl „san ni meeru“ [„Email an irgendjemand“] übereinstimmt, um dadurch zu bestimmen, dass die Sprachregel „Eigenname + Befehl + Freitext“ ist.
Der Sprachregelbestimmungsprozessor 114 gibt die bestimmte Sprachregel an den Erkennungsergebnis-Zusammenführungsprozessor 110 und den Zustandsbestimmungsprozessor 111 aus. Der Erkennungsergebnis-Zusammenführungsprozessor 111 gibt „Spracherkennungsergebnis des Client: Nicht vorhanden“, „Spracherkennungsergebnis des Servers: Vorhanden“ und „Zusammengeführtes Ergebnis: ‚Ich fühle mich von Staatsanwalt niedergeschlagen, Ich fahre jetzt zurück‘ " an den Zustandsbestimmungsprozessor 111 aus. Da das Spracherkennungsergebnis des Client nicht vorhanden ist, ist das zusammengeführte Ergebnis hier das Spracherkennungsergebnis des Servers selbst.
Dann beurteilt der Zustandsbestimmungsprozessor 111 in Schritt S110, ob ein Spracherkennungszustand bestimmt werden kann, auf Grundlage der vom Sprachregelbestimmungsprozessor 114 ausgegebenen Sprachregel, und dem Vorhandensein/Nichtvorhandensein des Spracherkennungsergebnisses des Clients, dem Vorhandensein/Nichtvorhandensein des Spracherkennungsergebnisses des Servers und des zusammengeführten Ergebnisses, welche vom Erkennungsergebnis-Zusammenführungsprozessor 110 ausgegeben werden. Der Zustandsbestimmungsprozessor 111 bezieht sich auf 6, um dadurch den Spracherkennungszustand zu bestimmen. Da die Sprachregel hier „Eigenname + Befehl + Freitext“ ist und nur das Spracherkennungsergebnis des Servers vorhanden ist, bestimmt der Zustandsbestimmungsprozessor 111 den Spracherkennungszustand als S3, gefolgt von einem Speichern dieses Zustands.
Dann beurteilt der Zustandsbestimmungsprozessor 111 in Schritt S111, ob ein Befehl für das System festgestellt werden kann. Da der Spracherkennungszustand nicht S1 ist, beurteilt der Zustandsbestimmungsprozessor 111, dass ein Befehl für das System nicht festgestellt werden kann, um dadurch einen Spracherkennungszustand zu bestimmen, und gibt den bestimmten Spracherkennungszustand an den Antworttexterzeuger 112 aus. Ferner gibt der Zustandsbestimmungsprozessor 111 den bestimmten Spracherkennungszustand an den Spracheingeber 106 aus. Das dient dazu, um die nächste Spracheingabe an den Spracherkenner 107 des Client zu veranlassen, ohne an den Server gesendet zu werden.
Dann bezieht sich der Antworttexterzeuger 112 in Schritt S113 hinsichtlich des somit erhaltenen Spracherkennungszustands auf 7, um dadurch einen Antworttext zu erzeugen. Dann gibt der Antworttexterzeuger 112 den Antworttext an den Ausgeber 113 aus. Wenn zum Beispiel der Spracherkennungszustand S3 ist, erzeugt dieser einen Antworttext „Wie soll fortgefahren werden mit ‚Ich fahre jetzt zurück‘ “, und gibt den Antworttext an den Ausgeber 113 aus.
Dann gibt der Ausgeber 113 in Schritt S114 den Antworttext über die Anzeige, den Lautsprecher und/oder dergleichen aus, um dadurch den Benutzer zu veranlassen, das Sprachelement, dessen Erkennungsergebnis nicht erhalten wird, erneut zu sprechen.
Nachdem der Benutzer aufgefordert wurde, erneut zu sprechen, wenn der Benutzer erneut spricht „Email Herr Kenji“, da die Verarbeitung in S101 bis S104 wie vorstehend erläutert durchgeführt wird, wird auf deren Beschreibung hier verzichtet. Es wird darauf hingewiesen, dass gemäß dem vom Zustandsbestimmungsprozessor 111 ausgegebenen Spracherkennungszustand der Spracheingeber 106 bestimmt hat, wohin die erneut gesprochene Sprachansage zu senden ist. Im Fall von S2 gibt der Spracheingeber die Sprachdaten nur an den Sender 108 aus, so dass die Daten an den Server gesendet werden, und im Fall von S3 gibt der Spracheingeber die Sprachdaten an den Spracherkenner 107 des Client aus.
Dann empfängt der Erkennungsergebnis-Zusammenführungsprozessor 110 in Schritt S106 das Spracherkennungsergebnis des Client und das Bestimmungsergebnis der Sprachregel, welche durch den Sprachregelbestimmungsprozessor 114 ausgegeben werden, und bestätigt, ob sowohl das Spracherkennungsergebnis des Client und das Spracherkennungsergebnis des Servers vorhanden sind.
Dann bestätigt der Erkennungsergebnis-Zusammenführungsprozessor 110 in Schritt S115, ob das Spracherkennungsergebnis des Client vorhanden ist oder nicht, und wenn dieses vorhanden ist, gibt dieser „Spracherkennungsergebnis des Client: Vorhanden“, „Spracherkennungsergebnis des Servers: Nicht Vorhanden“ und „Zusammengeführtes Ergebnis: ‚Email Herr Kenji‘ “an den Zustandsbestimmungsprozessor 111 aus. Hier berücksichtigt der Erkennungsergebnis-Zusammenführungsprozessor 110, da das Spracherkennungsergebnis des Servers nicht vorhanden ist, das Spracherkennungsergebnis des Client als das zusammengeführte Ergebnis.
Dann aktualisiert der Zustandsbestimmungsprozessor 111 in Schritt 110 den Spracherkennungszustand aus dem gespeicherten Spracherkennungszustand vor dem erneuten Sprechen, und den Informationen über das Spracherkennungsergebnis des Client, das Spracherkennungsergebnis des Servers und das zusammengeführte Ergebnis, welche vom Erkennungsergebnis-Zusammenführungsprozessor 110 ausgegeben werden. Der Spracherkennungszustand vor dem erneuten Sprechen war S3, und das Spracherkennungsergebnis des Client war nicht vorhanden. Aufgrund des erneuten Sprechens wird das Spracherkennungsergebnis des Client „Vorhanden“, so dass der Zustandsbestimmungsprozessor 111 den Spracherkennungszustand S3 in S1 aktualisiert. Zudem wendet der Zustandsbestimmungsprozessor das zusammengeführt Ergebnis „Email Herr Kenji“, welches vom Erkennungsergebnis-Zusammenführungsprozessor 110 ausgegeben wird, für die Sprachelemente „Eigenname + Befehl“ in der gespeicherten Sprachregel an, um dadurch einen Befehl für das System von „Email Herr Kenji, ich fahre jetzt zurück“ festzustellen.
Die folgenden Schritte S111 bis S112 sind ähnlich den bereits beschriebenen, so dass auf deren Beschreibung hier verzichtet wird.
Wie vorstehend erläutert, wurden gemäß Ausführungsform 1 der Erfindung die Korrespondenzbeziehungen zwischen dem Vorhandensein/Nichtvorhandensein des Spracherkennungsergebnisses des Servers, dem Vorhandensein/Nichtvorhandensein des Spracherkennungsergebnisses des Client und jedem der Sprachelemente in der Sprachregel bestimmt und die Korrespondenzbeziehungen gespeichert. Somit, selbst wenn kein Spracherkennungsergebnis vom Server oder dem Client bereitgestellt ist, ist es möglich, den Teil, dessen Erkennungsergebnis nicht erhalten wird, aus der Spracheregel und der Korrespondenzbeziehung zu spezifizieren, um dadurch den Benutzer aufzufordern, diesen Teil erneut zu sprechen. Im Ergebnis ist eine Wirkung bereitgestellt, so dass es nicht notwendig ist, den Benutzer aufzufordern, von Anfang an neu zu sprechen, so dass die Belastung des Benutzers reduziert werden kann.
Wenn vom Client kein Spracherkennungsergebnis bereitgestellt ist, wird angenommen, dass der Antworttexterzeuger 112 den Antworttext „Wie soll fortgefahren werden mit ‚Ich fahre jetzt zurück‘ “ erzeugt; es ist allerdings zulässig, dass der Zustandsbestimmungsprozessor 111 den Freitext, dessen Erkennungsergebnis erhalten wird, in der folgenden Weise analysiert, um dadurch die Befehlsschätzung durchzuführen, und dann den Benutzer zu veranlassen, eines der geschätzten Befehlskandidaten auszuwählen. Hinsichtlich des Freitextes sucht der Zustandsbestimmungsprozessor einen beliebigen Satz, welcher darin enthalten ist und welcher einen hohen Affinitätsgrad für jeden der vorregistrierten Befehle aufweist, und bestimmt Befehlskandidaten in absteigender Reihenfolge der Affinitätsgrade. Der Affinitätsgrad wird zum Beispiel nach Sammeln von Beispielen vergangener Sprachtexte definiert, durch die Wahrscheinlichkeiten des gemeinsamen Auftretens des Befehls, welcher in den Beispielen vorkommt, und jedem der Wörter in dem darin vorhandenen Freitext. Wenn der Satz „Ich fahre jetzt zurück“ ist, wird angenommen, dass ein hoher Affinitätsgrad für „Mail“ oder „Telefon“ vorhanden ist, so dass ein entsprechender Kandidat durch die Anzeige oder den Lautsprecher ausgegeben wird. Zudem ist es denkbar, dass der Benutzer benachrichtigt wird „1: Mail, 2: Telefon - was soll ausgewählt werden?“ oder dergleichen, um dadurch den Benutzer zu veranlassen, „1“ zu sprechen. Die Auswahl kann mittels einer Zahl oder in einer solchen Weise erfolgen, dass der Benutzer „Mail“ oder „Telefon“ erneut spricht. Dadurch wird die Belastung des Benutzers beim erneuten Sprechen weiter reduziert.
Wenn zudem vom Server kein Spracherkennungsergebnis bereitgestellt ist, wird angenommen, dass der Antworttexterzeuger 112 den Antworttext „Email an Herrn Kenji, Bitte Textkörper erneut sprechen“ erzeugt; dieser kann allerdings stattdessen einen Antworttext „Soll Herrn Kenji eine Email gesendet werden?“ erzeugen. Nachdem der Ausgeber 113 den Antworttext über die Anzeige oder den Lautsprecher ausgegeben hat, kann der Spracherkennungszustand in dem Zustandsbestimmungsprozessor 111 bestimmt werden, nachdem das Ergebnis „Ja“ vom Benutzer empfangen ist.
Es wird darauf hingewiesen, dass dann, wenn der Benutzer „Nein“ spricht, der Zustandsbestimmungsprozessor 111 beurteilt, dass der Spracherkennungszustand nicht bestimmt werden konnte, und somit den Spracherkennungszustand S4 an den Antworttexterzeuger 112 ausgibt. Anschließend, wie in Schritt S117 gezeigt, meldet der Zustandsbestimmungsprozessor dem Benutzer, dass die Sprachansage nicht erkannt werden konnte, über den Ausgeber 113. Auf diese Weise ist es durch Nachfragen beim Benutzer, ob die Sprachelemente entsprechend „Eigenname + Befehl“ festgestellt werden können, möglich, Erkennungsergebnisfehler in dem Eigennamen und dem Befehl zu reduzieren.
Ausführungsform 2
Anschließend wird eine Spracherkennungseinrichtung gemäß Ausführungsform 2 erläutert. In Ausführungsform 1 erfolgte die Beschreibung für den Fall, in welchem das Spracherkennungsergebnis des Servers und des Client nicht vorhanden ist. In Ausführungsform 2 erfolgt die Beschreibung für einen Fall, in welchem, obwohl ein Spracherkennungsergebnis des Client oder des Servers vorhanden ist, in dem Spracherkennungsergebnis eine Unklarheit vorhanden ist, so dass ein Teil des Spracherkennungsergebnisses nicht festgestellt werden kann.
Die Konfiguration der Spracherkennungseinrichtung gemäß Ausführungsform 2 ist gleich jener in Ausführungsform 1, gezeigt in 1, so dass auf die Beschreibung der entsprechenden Teile hier verzichtet wird.
Anschließend werden Funktionsweisen erläutert.
Wenn der Spracherkenner 107 die Spracherkennung der Sprachdaten, welche bereitgestellt sind, wenn der Benutzer „Email Herr Kenji“ spricht, durchführt, tritt möglicherweise in Abhängigkeit von der Sprechsituation ein solcher Fall auf, in welchem mehrere Spracherkennungsergebnis-Kandidaten wie „Email Herr Kenji“ und „Email Herr Kenichi“ aufgelistet werden, und die mehreren Spracherkennungsergebnis-Kandidaten ihre entsprechenden Erkennungsbewertungen aufweisen, welche nahe zueinander liegen. Wenn solche mehreren Spracherkennungsergebnis-Kandidaten vorhanden sind, erzeugt der Erkennungsergebnis-Zusammenführungsprozessor 110 „Email Herr ??“ zum Beispiel als ein Ergebnis der Spracherkennung, um beim Benutzer nach dem unklaren Eigennamensteil nachzufragen.
Der Erkennungsergebnis-Zusammenführungsprozessor 110 gibt „Spracherkennungsergebnis des Servers: Vorhanden“, „Spracherkennungsergebnis des Client: Vorhanden“ und „Zusammengeführtes Ergebnis: ‚Email Herr??, Ich fahre jetzt zurück‘ “ an den Zustandsbestimmungsprozessor 111 aus.
Der Zustandsbestimmungsprozessor 111 beurteilt aus der Sprachregel und dem zusammengeführten Ergebnis, welches der Sprachelemente in der Sprachregel festgestellt ist. Dann bestimmt der Zustandsbestimmungsprozessor 111 einen Spracherkennungszustand auf Grundlage davon, ob jedes der Sprachelemente in der Sprachregel festgestellt ist oder nicht festgestellt ist, oder ob kein Sprachelement vorhanden ist.
8 ist ein Diagramm zum Darstellen einer Korrespondenzbeziehung zwischen einem Zustand der Sprachelemente in der Sprachregel und einem Spracherkennungszustand. Zum Beispiel im Fall von „Email Herr ??“, Ich fahre jetzt zurück“, da der Eigennamensteil nicht festgestellt ist, aber der Befehl und der Freitext festgestellt sind, wird der Spracherkennungszustand als S2 bestimmt. Der Zustandsbestimmungsprozessor 111 gibt den Spracherkennungszustand S2 an den Antworttexterzeuger 112 aus.
In Antwort auf den Spracherkennungszustand S2 erzeugt der Antworttexterzeuger 112 einen Antworttext „An wen soll eine Email gesendet werden?“, um den Benutzer aufzufordern, den Eigennamen erneut zu sprechen, und gibt den Antworttext an den Ausgeber 113 aus. Als ein Verfahren, um den Benutzer aufzufordern, erneut zu sprechen, können Auswahlen angezeigt sein, auf Grundlage der Spracherkennungsergebnisses des Client. Es ist zum Beispiel eine solche Konfiguration denkbar, dass dem Benutzer „1: Herr Kenji, 2: Herr Kenichi, 3: Herr Kengo - an wen soll eine Email versendet werden?“ oder dergleichen mitgeteilt wird, um dadurch den Benutzer bzw. die Benutzerin zu veranlassen, eine der Zahlen zu sprechen. Wenn die Erkennungsbewertung eine zuverlässige Bewertung wird, indem erneut gesprochener Inhalt des Benutzers empfangen wird, wird „Herr Kenji“ festgestellt, und dann in Kombination mit dem Sprachaktivierungsbefehl der Text „Email Herr Kenji“ festgestellt und dieses Spracherkennungsergebnis ausgegeben.
Wie vorstehend erläutert wird gemäß der Erfindung gemäß Ausführungsform 2 eine Wirkung bereitgestellt, dass es dann, selbst wenn das Spracherkennungsergebnis des Servers oder des Client vorhanden ist, aber ein Teil in diesem Spracherkennungsergebnis nicht festgestellt ist, nicht notwendig ist, dass der Benutzer komplett neu spricht, so dass die Belastung des Benutzers reduziert wird.
Bezugszeichenliste
101: Spracherkennungsserver, 102: Spracherkennungseinrichtung des Client, 103: Empfänger des Servers, 104: Spracherkenner des Servers, 105: Sender des Servers, 106: Spracheingeber, 107: Spracherkenner des Client, 108: Sender des Client, 109: Empfänger des Client, 110: Erkennungsergebnis-Zusammenführungsprozessor, 111: Zustandsbestimmungsprozessor, 112: Antworttexterzeuger, 113: Ausgeber, 114: Sprachregelbestimmungsprozessor, 115: Sprachregelspeicher

Claims

Spracherkennungseinrichtung, umfassend einen Sender, welcher eine Spracheingabe an einen Server sendet; einen Empfänger, welcher ein erstes Spracherkennungsergebnis empfängt, welches ein Ergebnis aus einer Spracherkennung durch den Server für die vom Sender gesendete Spracheingabe ist; einen Spracherkenner, welcher Spracherkennung für die Spracheingabe durchführt, um dadurch ein zweites Spracherkennungsergebnis zu erhalten; einen Sprachregelspeicher, in welchem Sprachregeln gespeichert sind, welche jeweils eine Bildung von Sprachelementen für die Spracheingabe repräsentieren; einen Sprachregelbestimmungsprozessor, welcher sich auf eine oder mehrere der Sprachregeln bezieht, um dadurch die Sprachregel zu bestimmen, welche mit dem zweiten Spracherkennungsergebnis zusammenpasst; einen Zustandsbestimmungsprozessor, welcher Korrespondenzbeziehungen zwischen einem Vorhandensein/Nichtvorhandensein des ersten Spracherkennungsergebnisses, einem Vorhandensein/Nichtvorhandensein des zweiten Spracherkennungsergebnisses und einem Vorhandensein/Nichtvorhandensein von mindestens einem der Sprachelemente, welche die Sprachregel bilden, speichert, und welcher aus den Korrespondenzbeziehungen einen Spracherkennungszustand bestimmt, welcher zumindest eines der Sprachelemente anzeigt, für das kein Spracherkennungsergebnis erhalten wurde; einen Antworttexterzeuger, welcher entsprechend dem durch den Zustandsbestimmungsprozessor bestimmten Spracherkennungszustand einen Antworttext erzeugt, um zumindest nach dem einen der Sprachelemente nachzufragen, für das kein Spracherkennungsergebnis erhalten wurde; und einen Ausgeber, welcher den Antworttext ausgibt.
Spracherkennungseinrichtung nach Anspruch 1, ferner umfassend einen Erkennungsergebnis-Zusammenführungsprozessor, welcher ein zusammengeführtes Ergebnis aus der Zusammenführung des ersten Spracherkennungsergebnisses und des zweiten Spracherkennungsergebnisses unter Verwendung der Sprachregel ausgibt, wobei der Zustandsbestimmungsprozessor den Spracherkennungszustand für das zusammengeführte Ergebnis bestimmt.
Spracherkennungseinrichtung nach Anspruch 1 oder 2, wobei die Sprachregel einen Eigennamen, einen Befehl und einen Freitext enthält.
Spracherkennungseinrichtung nach Anspruch 3, wobei der Empfänger das erste Spracherkennungsergebnis aus der Spracherkennung für den Freitext durch den Server empfängt, und wobei der Zustandsbestimmungsprozessor ein Schätzen des Befehls für das erste Spracherkennungsergebnis durchführt, um dadurch den Spracherkennungszustand zu bestimmen.
Spracherkennungseinrichtung nach einem der Ansprüche 1 bis 4, wobei der Spracherkenner mehrere zweite Spracherkennungsergebnisse ausgibt; und wobei der Antworttexterzeuger den Antworttext erzeugt, um einen Benutzer zu veranlassen, eines der mehreren zweiten Spracherkennungsergebnisse auszuwählen.
Spracherkennungsverfahren für eine Spracherkennungseinrichtung, welche einen Sender, einen Empfänger, einen Spracherkenner, einen Sprachregelbestimmungsprozessor, einen Zustandsbestimmungsprozessor, einen Antworttexterzeuger und einen Ausgeber enthält, und in welcher Sprachregeln, welche jeweils eine Bildung von Sprachelementen repräsentieren, in einem Speicher gespeichert sind, wobei das Spracherkennungsverfahren umfasst: einen Sendeschritt, in welchem der Sender eine Spracheingabe an einen Server sendet; einen Empfangsschritt, in welchem der Empfänger ein erstes Spracherkennungsergebnis empfängt, welches ein Ergebnis aus einer Spracherkennung durch den Server für die Spracheingabe ist, welche in dem Sendungsschritt gesendet wird; einen Spracherkennungsschritt, in welchem der Spracherkenner eine Spracherkennung für die Spracheingabe durchführt, um dadurch ein zweites Spracherkennungsergebnis zu erhalten; einen Sprachregelbestimmungsschritt, in welchem der Sprachregelbestimmungsprozessor eine oder mehrere der Sprachregeln abruft, um dadurch die Sprachregel zu bestimmen, welche mit dem zweiten Spracherkennungsergebnis zusammenpasst; einen Zustandsbestimmungsschritt, in welchem der Zustandsbestimmungsprozessor Korrespondenzbeziehungen zwischen einem Vorhandensein/Nichtvorhandensein des ersten Spracherkennungsergebnisses, einem Vorhandensein/Nichtvorhandensein des zweiten Spracherkennungsergebnisses und einem Vorhandensein/Nichtvorhandensein von mindestens einem der Sprachelemente, welche die Sprachregel bilden, speichert, und aus den Korrespondenzbeziehungen einen Spracherkennungszustand bestimmt, welcher zumindest eines der Sprachelemente anzeigt, für das kein Spracherkennungsergebnis erhalten wurde; einen Antworttexterzeugungsschritt, in welchem der Antworttexterzeuger entsprechend dem in dem Zustandsbestimmungsschritt bestimmten Spracherkennungszustand einen Antworttext erzeugt, um nach zumindest einem der Sprachelemente nachzufragen, für das kein Spracherkennungsergebnis erhalten wurde; und einen Schritt, in welchem der Ausgeber den Antworttext ausgibt.