DE112008001334B4

DE112008001334B4 - Spracherkennungsvorrichtung

Info

Publication number: DE112008001334B4
Application number: DE112008001334.9T
Authority: DE
Inventors: Yuzuru Inoue; Tadashi Suzuki; Fumitaka Sato; Takayoshi Chikuri
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2007-07-02
Filing date: 2008-03-27
Publication date: 2016-12-15
Anticipated expiration: 2028-03-28
Also published as: JP4859982B2; US8407051B2; CN101689366B; DE112008001334T5; WO2009004750A1; US20110208525A1; JPWO2009004750A1; CN101689366A

Abstract

Spracherkennungsvorrichtung, umfassend: einen Sprachstart-Anweisungsabschnitt (3) zum Anweisen, Spracherkennung zu starten; einen Spracheingabeabschnitt (1) zum Empfangen von geäußerter Sprache und zum Umwandeln derselben in ein Sprachsignal; einen Spracherkennungsabschnitt (2) zum Erkennen der Sprache auf Basis des aus dem Spracheingabeabschnitt gelieferten Sprachsignals, und zum Erzeugen eines Erkennungsresultats und einer Spracherkennungsbewertung, welche die Wahrscheinlichkeit der Richtigkeit von durch den Spracherkennungsabschnitt (2) erkannten Worten repräsentiert; einen Äußerungsstartzeit-Detektionsabschnitt (4) zum Detektieren einer Äußerungsstartzeit als der Dauer von dem Zeitpunkt, wenn der Sprachstart-Anweisungsabschnitt (3) anweist, die Spracherkennung zu starten, bis zu dem Zeitpunkt, wenn der Spracheingabeabschnitt (1) das Sprachsignal liefert; einen Äußerungstiming-Entscheidungsabschnitt (5) zum Entscheiden, dass ein Äußerungstiming schnell ist, falls die Äußerungsstartzeit gleich oder kleiner einem vorgegebenen Schwellenwert ist, oder dass das Äußerungstiming langsam ist, falls die Äußerungsstartzeit größer als der Schwellenwert ist; einen Spracherkennungsbewertungs-Korrekturabschnitt (10) zum Korrigieren der Spracherkennungsbewertung, anhand des entschiedenen Äußerungstimings; einen Bewertungsgrenz-Entscheidungsabschnitt (11) zum Entscheiden, ob das Erkennungsresultat bereitzustellen ist oder nicht, in Übereinstimmung mit der korrigierten Spracherkennungsbewertung, ...

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf eine in einem Fahrzeug montierte Spracherkennungsvorrichtung zum Erkennen von Sprache, die ein Anwender ausstößt.
HINTERGRUND
Konventionell ist ein sprach-interaktives System bekannt gewesen, das Konversation zwischen einem System und einem Anwender mittels Sprache durchführt (siehe beispielsweise Patentdokument 1). Das sprach-interaktive System beinhaltet einen Lautsprecher zum Ausgeben von systemseitiger Sprache an einen Anwender; ein Mikrofon zum Umwandeln von Sprache, die der Anwender, in Reaktion auf eine systemseitige Sprachausgabe aus dem Lautsprecher ausstößt, in ein Sprachsignal; einen Spracherkennungsabschnitt zum Erkennen der in das Mikrofon eingegebenen Sprache; einen Äußerungstiming-Detektorabschnitt zum Detektieren von Äußerungstiming auf der Basis des durch Umwandeln der Sprache durch das Mikrofon erhaltenen Sprachsignals und eines Antwort-Sprachsignals aus einem Antworterzeugungsabschnitt; einem Kenntnisniveau-Entscheidungsabschnitt zum Entscheiden über ein Kenntnisniveau der Sprachinteraktion des Anwenders unter Verwendung des Äußerungstimings; und einen Sprachausgabe-Änderungsabschnitt zum Ändern eines Ausgabeinhalts der systemseitigen Stimme anhand des durch den Kenntnisniveau-Entscheidungsabschnitt entschiedenen Kenntnisniveaus.
Allgemein wird in der Spracherkennungs-Software die Spracherkennung nur durch akustische Charakteristika der Sprache, die der Anwender äußert, entschieden. Beispielsweise berührt die Dauer von dem Zeitpunkt, in dem das System in einen erkennbaren Modus eintritt, wenn der Anwender einen Erkennungsstartknopf drückt, bis zu dem Zeitpunkt, wenn der Anwender tatsächlich seine oder ihre Äußerung beginnt (was ab jetzt als ”Äußerungstiming” bezeichnet wird) das Erkennungsergebnis nicht beeinflusst.
Patentdokument 1: Japanische Patentoffenlegungsschrift Nr. JP 2004-333 543 A
Das im vorstehenden Patentdokument 1 offenbarte sprach-interaktive System ist auf eine solche Weise konfiguriert, dass es über den Kenntnispegel der Sprachinteraktion auf Basis des Äußerungstimings, der Häufigkeit der Verwendung und der Äußerungsgeschwindigkeit entscheidet, und die Spracherkennung unter Berücksichtigung des Kenntnisniveaus ausführt. Jedoch wird das Kenntnisniveau nur auf die Ausgabeänderung der systemseitigen Sprache (Führungssprache) angewendet und hat keinen direkten Effekt auf das Erkennungsergebnis. Dementsprechend gibt es das Problem, dass Miss-Identifikation abhängig vom Äußerungstiming des Anwenders auftritt.
EP 1 591 979 A1 lehrt eine fahrzeugmontierte Steuervorrichtung mit einer Spracheingabefunktionalität, in der verschiedene Parameter bei der Eingabe von gesprochener Sprache berücksichtigt werden, um eine Analyse durchzuführen, die bezüglich der Qualität der Spracherkennung zu einem Ergebnis gut oder nicht gut gelangt. Es werden Parameteräußerungszeitpunkt und Konversationszeitpunkt erwähnt, wobei der Äußerungszeitpunkt in Bezug auf einen Zeitraum, während dem das Mikrofon die Stimme aufnehmen kann, beschrieben ist. Es erfolgt also ein Ja/Nein Entscheidungsprozess.
JP 2006313261 A lehrt eine weitere Spracherkennungsvorrichtung, die eine Äußerungsstartlernzeit zwischen Spracheingabeaktivierung und Beginn des Sprechens lehrt, die verwendet wird, um Spracheingabekandidaten als solche zu identifizieren, die von einem Benutzer stammen, um daran Spracherkennung auszuführen.
Die vorliegende Erfindung ist implementiert worden, um das vorstehende Problem zu lösen. Daher ist es eine Aufgabe der vorliegenden Erfindung, eine in einem Fahrzeug montierte Spracherkennungsvorrichtung bereitzustellen, die in der Lage ist, einem Anwender geeignete Informationen zum Spracherkennungsergebnis anhand des Anwender-Äußerungstimings bereitzustellen.
OFFENBARUNG DER ERFINDUNG
Um das vorstehende Problem zu lösen, beinhaltet eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung: einen Sprachstart-Anweisungsabschnitt zum Anweisen, Spracherkennung zu starten; einen Spracheingabeabschnitt zum Empfangen von geäußerter Sprache und zum Umwandeln derselben in ein Sprachsignal; einen Spracherkennungsabschnitt zum Erkennen der Sprache auf Basis des aus dem Spracheingabeabschnitt gelieferten Sprachsignals; einen Äußerungsstartzeit-Detektionsabschnitt zum Detektieren der Dauer von dem Zeitpunkt, wenn der Sprachstart-Anweisungsabschnitt anweist, die Spracherkennung zu starten, bis zu dem Zeitpunkt, wenn der Spracheingabeabschnitt das Sprachsignal liefert; einen Äußerungstiming-Entscheidungsabschnitt zum Entscheiden über das Äußerungstiming, das anzeigt, ob ein Äußerungsstart schnell oder langsam ist, durch Vergleichen der von dem Äußerungsstartzeit-Detektionsabschnitt detektierten Dauer mit einem vorgegebenen Schwellenwert; einen Spracherkennungsbewertungs-Korrekturabschnitt zum Korrigieren einer Spracherkennungsbewertung von Worten, die durch den Spracherkennungsabschnitt erkannt worden sind, anhand des durch den Äußerungstiming-Entscheidungsabschnitt entschiedenen Äußerungstimings; einen Bewertungsgrenz-Entscheidungsabschnitt zum Entscheiden, ob das Erkennungsresultat bereitzustellen ist oder nicht, in Übereinstimmung mit der Spracherkennungsbewertung, die durch den Spracherkennungsbewertungs-Korrekturabschnitt korrigiert ist, einen Interaktions-Steuerabschnitt zum Bestimmen, anhand des Entscheidungsresultats des Bewertungsgrenz-Entscheidungsabschnittes, eines Inhalts, der zu zeigen ist, wenn ein Erkennungsergebnis des Spracherkennungsabschnittes dargestellt wird; einen Systemantwort-Erzeugungsabschnitt zum Erzeugen einer Systemantwort auf Basis des zu zeigenden Inhalts, der durch den Interaktions-Steuerabschnitt bestimmt ist, und einen Ausgabeabschnitt zum Ausgeben der durch den Systemantwort-Erzeugungsabschnitt erzeugten Systemantwort.
Gemäß der Spracherkennungsvorrichtung der vorliegenden Erfindung, die in einer solchen Weise konfiguriert ist, die Systemantwort mit dem, dem Äußerungstiming entsprechenden Inhalt auszugeben, kann sie einem Anwender einen geeigneten ”Telop” (Bildschirmsymbol) und Antwortführung bereitstellen.
Als Ergebnis kann der Anwender angenehme und angemessene Manipulationen durchführen und ein Missfallensgefühl reduzieren, wenn eine Miss-Identifikation gemacht wird. Zusätzlich, da sie das Erkennungsergebnis anhand des Anwender-Äußerungstiming korrigieren kann, kann sie in einer Weise konfiguriert werden, bei der verhindert wird, dass das Erkennungsergebnis mit einer hohen Wahrscheinlichkeit für Miss-Identifikation dem Anwender dargestellt wird. Als Ergebnis kann sie das Wahrnehmen von Worten verhindern, die der Anwender nicht beabsichtigt.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockdiagramm, das eine Konfiguration einer nicht erfindungsgemäßen Spracherkennungsvorrichtung (”Ausführungsform 1”) zeigt;
2 ist ein Sequenzdiagramm, das den Betrieb der Spracherkennungsvorrichtung der Ausführungsform 1 zeigt;
3 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 2 gemäß der vorliegenden Erfindung zeigt;
4 ist ein Sequenzdiagramm, das den Betrieb der Spracherkennungsvorrichtung der Ausführungsform 2 gemäß der vorliegenden Erfindung zeigt;
5 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 3 gemäß der vorliegenden Erfindung zeigt;
6 ist ein Sequenzdiagramm, das den Betrieb der Spracherkennungsvorrichtung der Ausführungsform 3 gemäß der vorliegenden Erfindung zeigt;
7 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 4 gemäß der vorliegenden Erfindung zeigt;
8 ist ein Sequenzdiagramm, das den Betrieb der Spracherkennungsvorrichtung der Ausführungsform 4 gemäß der vorliegenden Erfindung zeigt;
9 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 5 gemäß der vorliegenden Erfindung zeigt;
10 ist ein Sequenzdiagramm, das den Betrieb der Spracherkennungsvorrichtung der Ausführungsform 5 gemäß der vorliegenden Erfindung zeigt;
11 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 6 gemäß der vorliegenden Erfindung zeigt;
12 ist ein Sequenzdiagramm, das den Betrieb der Spracherkennungsvorrichtung der Ausführungsform 6 gemäß der vorliegenden Erfindung zeigt;
13 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 7 gemäß der vorliegenden Erfindung zeigt;
14 ist ein Sequenzdiagramm, das den Betrieb der Spracherkennungsvorrichtung der Ausführungsform 7 gemäß der vorliegenden Erfindung zeigt;
15 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 8 gemäß der vorliegenden Erfindung zeigt; und
16 ist ein Sequenzdiagramm, das den Betrieb der Spracherkennungsvorrichtung der Ausführungsform 8 gemäß der vorliegenden Erfindung zeigt.
BESTER MODUS ZUM AUSFÜHREN DER ERFINDUNG
Der beste Modus zum Ausführen der Erfindung wird nunmehr unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, um die vorliegende Erfindung detaillierter zu erläutern.
AUSFÜHRUNGSFORM 1
1 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 1 zeigt. Die Spracherkennungsvorrichtung beinhaltet einen Spracheingabeabschnitt 1, einen Spracherkennungsabschnitt 2, einen Sprachstart-Anweisungsabschnitt 3, einen Äußerungsstartzeit-Detektionsabschnitt 4, einen Äußerungstiming-Entscheidungsabschnitt 5, einen Interaktionssteuerabschnitt 6, einen Systemantwort-Erzeugungsabschnitt 7, einen Sprachausgabeabschnitt 8 und einen Telop-Ausgabeabschnitt 9.
Der Spracheingabeabschnitt 1, der beispielsweise aus einem Mikrofon besteht, empfängt die Sprache, die der Anwender ausstößt, wandelt sie in ein elektrisches Signal um und liefert sie an den Spracherkennungsabschnitt 2 und den Äußerungsstartzeit-Detektionsabschnitt 4 als ein Sprachsignal.
Der Spracherkennungsabschnitt 2 erkennt die Sprache, die der Anwender ausstößt, durch Verarbeiten des aus dem Spracheingabeabschnitt 1 gelieferten Sprachsignals. Spezifischer erkennt der Spracherkennungsabschnitt 2 die Sprache, indem er sukzessive ausführt: Speicherabschnitt-Detektion zum Detektieren der Anwenderäußerung aus dem aus dem Stimmeneingabeabschnitt 1 gelieferten Sprachsignal; Geräuschanalyse zum Umwandeln des durch die Stimmabschnittdetektion erhaltenen Sprachsignals zu einer Parameter-Repräsentation; Wahrscheinlichkeitsoperation zum Auswählen und Identifizieren der Phonemkandidaten maximaler Wahrscheinlichkeit auf Basis der Minimaleinheit der durch die Geräuschanalyse erhaltenen Sprache, und Vergleich, um über das Erkennungsergebnis zu entscheiden, durch Vergleichen der durch die Wahrscheinlichkeitsoperation erhaltenen Phoneme mit einem Wörterbuch, das Wörter und dergleichen speichert.
Die Geräuschanalyse, die beispielsweise den LPC mel cepstrum (Linear Predictor Coefficient, linearer Vorhersage-Koeffizient) oder MFCC (Mel Frequency Cepstrum Coefficient) verwendet, konvertiert das aus dem Spracheingabeabschnitt 1 gelieferte Sprachsignal zu einer Merkmalsvektorreihe und schätzt den Umriss (spektrale Hülle) des Stimmspektrums ab. Die Wahrscheinlichkeitsoperation, die beispielsweise HMM (Hidden Markov Model) verwendet, führt eine phonemische Symbolisierung des Sprachsignals unter Verwendung von Geräuschparametern durch, die durch die Geräuschanalyse extrahiert werden, basierend auf der eingegebenen Sprache, und wählt die Phonemkandidaten maximaler Wahrscheinlichkeit durch Vergleichen mit einem vorab vorbereiteten Standard-Phonemmodell aus. Die Vergleichsverarbeitung vergleicht die Phonemkandidaten mit dem Wörterbuch und wählt Wörter großer Wahrscheinlichkeit aus. Die vom Spracherkennungsabschnitt 2 erkannten Wörter werden dem Interaktionssteuerabschnitt 6 zugeführt.
Der Sprachstart-Anweisungsabschnitt 3 umfasst beispielsweise einen Erkennungsstartknopf und dergleichen, der auf einem Bildschirm ausgebildet ist oder auf einem Bedienerabschnitt (nicht gezeigt) vorgesehen ist. Wenn der Sprachstart-Anweisungsabschnitt 3 anweist, die Spracherkennung zu starten, wird ein Spracherkennungsstartsignal, das einen Start anzeigt, dem Äußerungsstartzeit-Detektionsabschnitt 4 geliefert. Die Spracherkennungsvorrichtung geht unter Verwendung des Spracherkennungsstartsignals aus dem Sprachstart-Anweisungsabschnitt 3 als einem Auslöser (der ab jetzt als ”Sprachstartauslöser” bezeichnet wird) in den Erkennungsmodus über.
Der Äußerungsstartzeit-Detektionsabschnitt 4 detektiert die Zeitdauer von einem Übergang in einen Spracherkennungsmodus, d. h., vom Empfangen des Spracherkennungs-Startsignals aus dem Sprachstart-Anweisungsabschnitt 3 bis zum tatsächlichen Start der Anwenderäußerung, d. h. bis zur Eingabe des Sprachsignals aus dem Spracheingabeabschnitt 1. Die Dauer, die der Äußerungsstartzeit-Detektionsabschnitt 4 detektiert, wird dem Äußerungstiming-Entscheidungsabschnitt 5 als Äußerungsstartzeit geliefert.
Der Äußerungstiming-Entscheidungsabschnitt 5 entscheidet über das Äußerungstiming auf Basis der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit. Genauer gesagt trifft der Äußerungstiming-Entscheidungsabschnitt 5 eine Entscheidung, dass das Äußerungstiming ”rasch” ist, falls die aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferte Äußerungsstartzeit gleich oder kleiner einem vorgegebenen Schwellenwert ist, und dass das Äußerungstiming ”langsam” ist, falls es größer als der vorgeschriebene Schwellenwert ist. Das vom Äußerungstiming-Entscheidungsabschnitt 5 entschiedene Äußerungstiming wird dem Interaktionssteuerabschnitt 6 geliefert.
Der Interaktionssteuerabschnitt 6 entscheidet über den Inhalt, der dem Anwender zu zeigen ist, anhand des aus dem Äußerungstiming-Entscheidungsabschnitt 5 gelieferten Äußerungstimings. Um konkret zu sein, ändert der Interaktionssteuerabschnitt 6, der über eine Systemantwort (Telop und Antwortführung) entscheidet, wenn die aus dem Spracherkennungsabschnitt 2 an den Anwender gelieferten Wörter gezeigt werden, den Inhalt der Systemantwort in diesem Fall anhand des Äußerungstimings (rasch/langsam), das vom Äußerungstiming-Entscheidungsabschnitt 5 entschieden worden ist. Wenn beispielsweise das Äußerungstiming rasch ist, entscheidet der Interaktionssteuerabschnitt 6, dass der Äußerer hastig vorgebracht hat und wenn das Äußerungstiming langsam ist, entscheidet er, dass der Äußerer zögernd vorgebracht hat. In jeglichem Fall, da es wahrscheinlich ist, dass falsche Worte erkannt werden, erzeugt er eine Führung zur Bestätigung, wie etwa ”Ist das richtig mit OO (Erkennungswörter)?”. Die vom Interaktionssteuerabschnitt 6 erzeugte Bestätigungsführung wird dem Systemantworterzeugungsabschnitt 7 zusammen mit einer Erzeugungsanforderung einer Systemantwort geliefert.
In Reaktion auf eine Anforderung zum Erzeugen der aus dem Interaktionssteuerabschnitt 6 gelieferten Systemantwort erzeugt der Systemantworterzeugungsabschnitt 7 die Systemantwort (Telop und Antwortführung) entsprechend der zur gleichen Zeit gelieferten Bestätigungsführung. Die vom Systemantworterzeugungsabschnitt 7 erzeugte Systemantwort wird zum Sprachausgabeabschnitt 8 und zum Telop-Ausgabeabschnitt 9 geliefert.
Der Sprachausgabeabschnitt 8, der beispielsweise aus einem Lautsprecher besteht, bildet einen Teil des Ausgabeabschnitts gemäß der vorliegenden Erfindung. Der Sprachausgabeabschnitt 8 gibt die Antwortführung, die in der aus dem Systemantworterzeugungsabschnitt 7 gelieferten Systemantwort enthalten ist, als Sprache aus.
Der Telop-Ausgabeabschnitt 9, der aus einer Anzeigeeinheit wie beispielsweise einer Flüssigkristallanzeigeneinheit besteht, entspricht einem anderen Teil des Ausgabeabschnitts gemäß der vorliegenden Erfindung. Der Telop-Ausgabeabschnitt 9 zeigt den in der aus dem Systemantworterzeugungsabschnitt 7 gelieferten Systemantwort enthaltenen Telop an.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung von Ausführungsform 1 mit der vorstehenden Konfiguration unter Bezugnahme auf ein in 2 gezeigtes Sequenzdiagramm beschrieben.
Zuerst wird in Reaktion auf eine Benutzermanipulation des Sprachstart-Anweisungsabschnitts 3 ein Sprachstartauslöser an den Äußerungsstartzeit-Detektionsabschnitt 4 geliefert. Dies veranlasst den Äußerungsstartzeit-Detektionsabschnitt 4, die Zeitmessung zu starten. Nachfolgend, wenn sich der Anwender äußert, wird seine oder ihre Stimme durch den Spracheingabeabschnitt 1 in das elektrische Signal umgewandelt und als Sprachsignal an den Spracherkennungsabschnitt 2 und Äußerungsstartzeit-Detektionsabschnitt 4 geliefert. Das Sprachsignal aus dem Spracheingabeabschnitt 1 empfangend, stoppt der Äußerungsstartzeit-Detektionsabschnitt 4 die Zeitmessung, detektiert die Zeitdauer vom Empfang des Sprachstartauslösers aus dem Sprachstart-Anweisungsabschnitt 3 bis zur Eingabe des Sprachsignals aus dem Spracheingabeabschnitt 1 und liefert sie an den Äußerungstiming-Entscheidungsabschnitt 5 als die Äußerungsstartzeit. Der Äußerungstiming-Entscheidungsabschnitt 5 entscheidet über das Äußerungstiming (rasch/langsam) auf Basis der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit und liefert das Entscheidungsergebnis an den Interaktionssteuerabschnitt 6 als ein Timing-Entscheidungsergebnis.
Andererseits erkennt der Spracherkennungsabschnitt 2, der das Sprachsignal aus dem Spracheingabeabschnitt 1 empfängt, die Stimme, die der Anwender äußert, auf Basis des Sprachsignals und liefert als Ergebnis der Erkennung erhaltene Worte an den Interaktionssteuerabschnitt 6. Der Interaktionssteuerabschnitt 6 entscheidet über die Systemreaktion (Telop und Antwortführung) zum Zeitpunkt an dem dem Anwender die aus dem Spracherkennungsabschnitt 2 gelieferten Worte bereitgestellt werden; ändert den Inhalt der beschlossenen Systemantwort gemäß dem Äußerungstiming (rasch/langsam), das aus dem Äußerungstiming-Entscheidungsabschnitt 5 geliefert worden ist; und liefert an den Systemantworterzeugungsabschnitt 7 als eine Bestätigungsführung zusammen mit der Anforderung zur Erzeugung der Systemantwort.
In Reaktion auf die Anforderung zur Erzeugung der Systemantwort, die aus dem Interaktionssteuerabschnitt 6 geliefert worden ist, erzeugt der Systemantworterzeugungsabschnitt die Systemantwort (Telop und Antwortführung) entsprechend der gleichzeitig gelieferten Bestätigungsführung und liefert sie an den Sprachausgabeabschnitt 8 und den Telop-Ausgabeabschnitt 9. Dies veranlasst den Sprachausgabeabschnitt 8, die aus dem Systemantworterzeugungsabschnitt 7 gelieferte Antwortführung als Sprache auszugeben, und den Telop-Ausgabeabschnitt 9, den aus dem Systemantworterzeugungsabschnitt 7 gelieferten Telop anzuzeigen, um ihn dem Benutzer zu zeigen.
Wie oben beschrieben, kann gemäß der Spracherkennungsvorrichtung einer Ausführungsform 1 sie die Systemantwort (Telop und Antwortführung) anhand des Anwenderäußerungstimings ändern. Entsprechend kann die Spracherkennungsvorrichtung den Anwender mit dem geeigneten Telop und der geeigneten Antwortführung versorgen, wodurch der Anwender in die Lage versetzt wird, angenehme und angemessene Manipulation durchzuführen, und ist sie in der Lage, ein Anwender-Missfallen zu vermindern, wenn eine Fehlidentifikation durchgeführt wird.
AUSFÜHRUNGSFORM 2
3 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 2 gemäß der vorliegenden Erfindung zeigt. Die Spracherkennungsvorrichtung ist durch Hinzufügen zur Spracherkennungsvorrichtung der Ausführungsform 1 eines Stimmerkennungsbewertungs-Korrekturabschnittes 10 und eines Bewertungsgrenz-Entscheidungsabschnitts 11 aufgebaut. Nachfolgend werden dieselben oder ähnliche Bereiche der Komponenten der Spracherkennungsvorrichtung von Ausführungsform 1 mit denselben Bezugszeichen, die in Ausführungsform 1 verwendet worden sind, bezeichnet und ihre Beschreibung wird weggelassen oder vereinfacht und die Beschreibung konzentriert sich auf gegenüber der Spracherkennungsvorrichtung von Ausführungsform 1 unterschiedliche Bereiche.
Bei der Spracherkennungsvorrichtung von Ausführungsform 2 liefert der Spracherkennungsabschnitt 2 die Worte, die er erkennt, an den Spracherkennungsbewertungs-Korrekturabschnitt 10 zusammen mit der Spracherkennungsbewertung der Worte. Zusätzlich liefert der Äußerungstiming-Entscheidungsabschnitt 5 das beschlossene Äußerungstiming an den Spracherkennungsbewertungs-Korrekturabschnitt 10.
Der Spracherkennungsbewertungs-Korrekturabschnitt 10 korrigiert die Spracherkennungsbewertung der aus dem Spracherkennungsabschnitt 2 gelieferten Worte gemäß dem aus dem Äußerungstiming-Entscheidungsabschnitt 5 gelieferten Äußerungstiming. Hier ist die Spracherkennungsbewertung Information, welche die Wahrscheinlichkeit des Erkennungsresultats repräsentiert. Wenn beispielsweise das Äußerungstiming rasch ist, wird entschieden, dass der Äußerer hastig vorbringt, und wenn das Äußerungstiming spät ist, wird entschieden, dass der Äußerer zögernd vorgebracht hat, und in jedem Fall davon ist es wahrscheinlich, dass die Worte fälschlich erkannt werden, und daher korrigiert der Spracherkennungsbewertungs-Korrekturabschnitt 10 auf eine solche Weise, dass die Spracherkennungsbewertung reduziert wird. Die Worte mit der durch den Spracherkennungsbewertungs-Korrekturabschnitt korrigierten Spracherkennungsbewertung werden an den Bewertungsgrenz-Entscheidungsabschnitt 11 geliefert.
Der Bewertungsgrenz-Entscheidungsabschnitt 11 entscheidet, ob dem Anwender das Erkennungsergebnis (Worte) bereitgestellt wird oder nicht, in Übereinstimmung mit der Spracherkennungsbewertung der Worte, die vom Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert worden sind. Um konkret zu sein, überprüft der Bewertungsgrenz-Entscheidungsabschnitt 11, ob die Spracherkennungsbewertung der aus dem Spracherkennungsbewertungs-Korrekturabschnitt 10 gelieferten Worte gleich oder größer einem vorgegebenen Schwellenwert ist und liefert, wenn sie gleich oder größer dem vorgegebenen Schwellenwert ist, die Worte an den Interaktionssteuerabschnitt 6, und liefert die Worte nicht an den Interaktionssteuerabschnitt 6, wenn sie kleiner als der vorgegebene Schwellenwert ist.
Wenn die Worte aus dem Spracherkennungsabschnitt 2 geliefert werden, bestimmt der Interaktionssteuerabschnitt 6 die Systemantwort zum Zeitpunkt des Anzeigens der Worte an den Anwender und erzeugt die Führung. Die durch den Interaktionssteuerabschnitt 6 erzeugte Führung wird dem Systemantworterzeugungsabschnitt 7 zusammen mit der Anforderung zur Erzeugung der Systemantwort geliefert.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung der Ausführungsform 2 gemäß der vorliegenden Erfindung mit der vorstehenden Konfiguration unter Bezugnahme auf ein in 4 gezeigtes Sequenzdiagramm beschrieben.
Was den Betrieb ab dem Zeitpunkt, wenn der Sprachstartauslöser an den Äußerungsszeit-Detektionsabschnitt 4 in Reaktion auf eine Anwendermanipulation des Sprachstart-Anweisungsabschnitts 3 geliefert wird, bis zu dem Zeitpunkt, wenn der Äußerungstiming-Entscheidungsabschnitt 5 das Äußerungstiming (rasch/langsam) ausgibt, anbelangt, und was den Betrieb bis zu dem Zeitpunkt, wenn der Spracherkennungsabschnitt 2, der das Sprachsignal aus dem Spracheingabeabschnitt 1 empfängt, das Erkennungsergebnis ausgibt, anbelangt, sind sie die gleichen wie jene der Spracherkennungsvorrichtung der oben beschriebenen Ausführungsform 1. Die Äußerungstimingausgabe aus dem Äußerungstiming-Entscheidungsabschnitt 5 wird an den Spracherkennungsbwertungs-Korrekturabschnitt 10 geliefert und das aus dem Spracherkennungsabschnitt 2 ausgegebene Erkennungsergebnis wird an den Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert.
Der Spracherkennungsbewertungs-Korrekturabschnitt 10 korrigiert die Spracherkennungsbewertung der aus dem Spracherkennungsabschnitt 2 gelieferten Worte anhand des aus dem Äußerungstiming-Entscheidungsabschnitt 5 gelieferten Äußerungstimings und liefert das Bewertungskorrekturresultat an den Bewertungsgrenz-Entscheidungsabschnitt 11. Der Bewertungsgrenz-Entscheidungsabschnitt 11 überprüft, ob die Spracherkennungsbewertung der aus dem Spracherkennungsbewertungs-Korrekturabschnitt 10 gelieferten Worte gleich oder größer dem vorgegebenen Schwellenwert ist und liefert die Worte an den Interaktionssteuerabschnitt 6, wenn sie gleich oder größer dem vorgegebenen Schwellenwert ist, und liefert die Worte nicht an den Interaktionssteuerabschnitt 6, wenn sie kleiner als der vorgegebene Schwellenwert ist.
Wenn die Worte aus dem Bewertungsgrenz-Entscheidungsabschnitt 11 geliefert werden, bestimmt der Interaktionssteuerabschnitt 6 die Systemantwort (Telop und Antwortführung) zum Zeitpunkt, an dem die Worte dem Anwender gezeigt werden, und liefert den Inhalt der bestimmten Systemantwort an den Systemantworterzeugungsabschnitt 7 als die Führung zusammen mit der Anforderung zum Erzeugen der Systemantwort. In Reaktion auf die Anforderung zur Erzeugung der Systemantwort, die aus dem Interaktionssteuerabschnitt 6 geliefert wird, erzeugt der Systemantworterzeugungsabschnitt 7 die Systemantwort (Telop und Antwortführung) entsprechend der Führung und liefert sie an den Sprachausgabeabschnitt 8 und den Telop-Ausgabeabschnitt 9. Dies veranlasst den Sprachausgabeabschnitt 8, die aus dem Systemantworterzeugungsabschnitt 7 gelieferte Antwortführung als Sprache auszugeben, und den Telop-Ausgabeabschnitt 9, den aus dem Systemantworterzeugungsabschnitt 7 gelieferten Telop anzuzeigen, um ihn einem Anwender darzustellen.
Wie oben beschrieben, kann gemäß der Spracherkennungsvorrichtung der Ausführungsform 2 gemäß der vorliegenden Erfindung sie das Erkennungsergebnis anhand des Anwender-Äußerungstimings korrigieren. Entsprechend kann die Spracherkennungsvorrichtung auf solche Weise aufgebaut sein, dass sie verhindert, dass das Erkennungsergebnis, bei dem hochwahrscheinlich ist, dass es fehlerhaft erkannt worden ist, dem Anwender dargestellt wird. Als Ergebnis kann sie verhindern, dass die Worte, die der Anwender nicht beabsichtigt, erkannt werden.
AUSFÜHRUNGFORM 3
5 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 3 gemäß der vorliegenden Erfindung zeigt. Die Spracherkennungsvorrichtung wird durch Hinzufügen eines Äußerungstiming-Lernabschnitts zur Spracherkennungsvorrichtung der Ausführungsform 2 aufgebaut. Nachfolgend werden gleiche oder ähnliche Bereiche wie die Komponenten der Spracherkennungsvorrichtung von Ausführungsform 2 mit denselben Bezugszeichen bezeichnet, die in Ausführungsform 2 verwendet werden, und ihre Beschreibung wird weggelassen oder vereinfacht und die Beschreibung wird so vorgenommen, dass sie auf die sich von der Spracherkennungsvorrichtung der Ausführungsform 2 unterscheidenden Bereiche fokussiert.
Bei der Spracherkennungsvorrichtung von Ausführungsform 3 liefert der Äußerungsstartzeit-Detektionsabschnitt 4 die detektierte Äußerungsstartzeit an den Äußerungstiming-Entscheidungsabschnitt 5 wie auch an den Äußerungstiming-Lernabschnitt 12.
Der Äußerungstiming-Lernabschnitt 12 lernt das Äußerungstiming auf Basis der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit. Konkret speichert der Äußerungstiming-Lernabschnitt 12 sukzessive die aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferte Äußerungsstartzeit. Dann, jedes Mal, wenn die neue Äußerungsstartzeit aus dem Äußerungsstartzeit-Detektionsabschnitt 4 geliefert wird, berechnet der Äußerungstiming-Lernabschnitt einen Mittelwert der Äußerungsstartzeit durch Teilen der über mehrere Male vorheriger Versuche detektierten Äußerungsstartzeiten durch die Anzahl von Versuchen und liefert ihn an den Äußerungstiming-Entscheidungsabschnitt 5 als gemitteltes Äußerungstiming.
Der Äußerungstiming-Entscheidungsabschnitt 5 trifft unter Verwendung des aus dem Äußerungstiming-Lernabschnitt 12 gelieferten mittleren Äußerungstimings als einem vorgegebenen Schwellenwert eine Entscheidung, dass das Äußerungstiming ”rasch” ist, wenn die aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferte Äußerungsstartzeit gleich oder kleiner dem vorgegebenen Schwellenwert ist, und dass das Äußerungstiming ”langsam” ist, wenn sie größer als der vorgegebene Schwellenwert ist. Dann liefert er das entschiedene Äußerungstiming an den Interaktionssteuerabschnitt 6.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung von Ausführungsform 3 gemäß der vorliegenden Erfindung mit der vorstehenden Konfiguration unter Bezugnahme auf ein in 6 gezeigtes Sequenzdiagramm beschrieben.
Bezüglich des Betriebs ab dem Zeitpunkt, wenn der Sprachstartauslöser an den Äußerungsstartzeit-Detektionsabschnitt 4 in Reaktion auf eine Anwendermanipulation des Sprachstart-Anweisungsabschnitts 3 geliefert wird, bis zu dem Zeitpunkt, wenn der Äußerungsstartzeit-Detektionsabschnitt 4 die Äußerungsstartzeit ausgibt; er ist derselbe wie derjenige der Spracherkennungsvorrichtung von oben beschriebener Ausführungsform 2. Die aus dem Äußerungsstartzeit-Detektionsabschnitt 4 ausgegebene Äußerungsstartzeit wird an den Äußerungstiming-Entscheidungsabschnitt 5 und den Äußerungstiming-Lernabschnitt 12 geliefert.
Der Äußerungstiming-Lernabschnitt 12 berechnet das gemittelte Äußerungstiming auf Basis der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit und liefert es an den Äußerungstiming-Entscheidungsabschnitt 5. Der Äußerungstiming-Entscheidungsabschnitt 5 entscheidet über das Äußerungstiming (rasch/langsam) durch Vergleichen der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit mit dem aus dem Äußerungstiming-Lernabschnitt 12 gelieferten gemittelten Äußerungstiming und liefert das Entscheidungsresultat an den Spracherkennungsbewertungs-Korrekturabschnitt 10. Andererseits erkennt der Spracherkennungsabschnitt 2, der das Sprachsignal aus dem Spracheingabeabschnitt 1 empfängt, die Stimme, die der Anwender ausstößt, auf Basis des Sprachsignals und liefert das Erkennungsergebnis an den Spracherkennungsbewertungs-Korrekturabschnitt 10. Der Betrieb danach ist derselbe wie bei der Spracherkennungsvorrichtung von Ausführungsform 2.
Wie oben beschrieben, gemäß der Spracherkennungsvorrichtung von Ausführungsform 3 gemäß der vorliegenden Erfindung, da sie dynamisch den Schwellenwert, der Äußerungstiming-Entscheidungsabschnitt verwendet, ändern kann, kann sie den Unterschied beim Äußerungstiming zwischen Individuen absorbieren.
Übrigens, obwohl die Spracherkennungsvorrichtung von Ausführungsform 3 durch Hinzufügen des Äußerungstiming-Lernabschnitts 12 zur Spracherkennungsvorrichtung der Ausführungsform 2 aufgebaut ist, kann sie auch durch Hinzufügen des Äußerungstiming-Lernabschnitts 12 zur Spracherkennungsvorrichtung von Ausführungsform 1 aufgebaut sein. Auch in diesem Fall kann sie denselben Effekt und dieselben Vorteile wie jene der vorstehenden Spracherkennungsvorrichtung von Ausführungsform 3 erzielen.
AUSFÜHRUNGSFORM 4
7 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 4 gemäß der vorliegenden Erfindung zeigt. Die Spracherkennungsvorrichtung ist durch Ersetzen des Äußerungstiming-Lernabschnitts 12 in der Spracherkennungsvorrichtung von Ausführungsform 3 durch einen Varianz-erwägenden Äußerungstiming-Lernabschnitt 13 aufgebaut. Nachfolgend werden zu den Komponenten der Spracherkennungsvorrichtung von Ausführungsform 3 gleiche oder ähnliche Bereiche mit denselben Bezugszeichen, die in Ausführungsform 3 verwendet worden sind, bezeichnet und ihre Beschreibung wird weggelassen und die Beschreibung wird fokussierend auf sich von der Spracherkennungsvorrichtung der Ausführungsform 3 unterscheidende Teile gegeben.
Der Varianz-erwägende Äußerungstiming-Lernabschnitt 13 lernt das Äußerungstiming unter Erwägung der Varianz auf Basis der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit. Genauer gesagt, auf Basis der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit berechnet der Varianz-erwägende Äußerungstiming-Lernabschnitt 13 einen Äußerungstiming-Entscheidungsschwellenwert, während die Varianz erwogen wird, und liefert ihn an den Äußerungstiming-Entscheidungsabschnitt 5. Man nehme beispielsweise an, dass die Äußerungsstartzeiten des Anwenders A und Anwenders B die letzten fünf Male wie folgt waren.
<Anwender A>

Erstes Mal: 6 [s]
Zweites Mal: 7 [s]
Drittes Mal: 7 [s]
Viertes Mal: 7 [s]
Fünftes Mal: 8 [s]
Äußerungsstart-Mittelzeit [s]: 7
Varianz: 0,5

<Anwender B>

Erstes Mal: 15 [s]
Zweites Mal: 3 [s]
Drittes Mal: 6 [s]
Viertes Mal: 4 [s]
Fünftes Mal: 7 [s]
Äußerungsstart-Mittelzeit [s]: 7
Varianz: 21

Bezüglich Anwender A wird die Varianz klein, weil die Abstände der individuellen Daten vom Mittelwert klein sind. Andererseits wird bezüglich Anwender B die Varianz groß, weil die Abstände der individuellen Daten vom Mittelwert groß sind. Die Bedeutung der Verschiebung des im Äußerungstiming-Entscheidungsabschnitt 5 verwendeten vorgegebenen Schwellenwerts um 1 [s] von der Äußerungsstart-Mittelzeit unterscheidet sich sehr für den Anwender A und den Anwender B: der Effekt ist groß für den Anwender A, ist aber klein für den Anwender B. Dementsprechend, wenn der im Äußerungstiming-Entscheidungsabschnitt 5 verwendete Schwellenwert dynamisch geändert wird, ist es notwendig, den Schwellenwert unter Erwägung der Größenordnung der Varianz zu ändern.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung von Ausführungsform 4 gemäß der vorliegenden Erfindung mit der vorstehenden Konfiguration unter Bezugnahme auf ein in 8 gezeigtes Sequenzdiagramm beschrieben.
Bezüglich des Betriebs ab dem Zeitpunkt, wenn der Sprachstartauslöser an den Äußerungsstartzeit-Detektionsabschnitt 4 in Reaktion auf eine Anwendermanipulation des Sprachstart-Anweisungsabschnitts 3 geliefert wird, bis zu dem Zeitpunkt, wenn der Äußerungsstartzeit-Detektionsabschnitt 4 die Äußerungsstartzeit ausgibt, ist er der gleiche wie derjenige der Spracherkennungsvorrichtung der oben beschriebenen Ausführungsform 2. Die aus dem Äußerungsstartzeit-Detektionsabschnitt 4 ausgegebene Äußerungsstartzeit wird dem Äußerungstiming-Entscheidungsabschnitt 5 und dem Varianz-erwägenden Äußerungstiming-Lernabschnitt 13 geliefert.
Der Varianz-erwägende Äußerungstiming-Lernabschnitt 13 berechnet unter Erwägung der Varianz den Äußerungstiming-Entscheidungsschwellenwert auf Basis der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit und liefert ihn an den Äußerungstiming-Entscheidungsabschnitt 5. Der Äußerungstiming-Entscheidungsabschnitt 5 entscheidet über das Äußerungstiming (rasch/langsam) durch Vergleichen der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit mit dem aus dem Varianz erwägenden Äußerungstiming-Lernabschnitt 13 gelieferten Äußerungstiming-Entscheidungsschwellenwert und liefert das Entscheidungsresultat an den Spracherkennungsbewertungs-Korrekturabschnitt 10. Andererseits erkennt der Spracherkennungsabschnitt 2, der das Sprachsignal aus dem Spracherkennungsabschnitt 1 empfängt, die Sprache, die der Anwender ausstößt, auf Basis des Sprachsignals und liefert das Erkennungsresultat an den Spracherkennungsbewertungs-Korrekturabschnitt 10. Der Betrieb danach ist derselbe wie derjenige der Spracherkennungsvorrichtung der Ausführungsform 3.
Wie oben beschrieben, kann gemäß der Spracherkennungsvorrichtung der Ausführungsform 4 gemäß der vorliegenden Erfindung, da sie dynamisch den Schwellenwert, den der Äußerungstiming-Entscheidungsabschnitt 5 verwendet, unter Erwägung der Varianz der Anwenderäußerung ändern kann, kann sie Fluktuationen beim Anwender-Äußerungstiming absorbieren.
Übrigens, obwohl die Spracherkennungsvorrichtung der Ausführungsform 4 durch Hinzufügen des Varianz erwägenden Äußerungstiming-Lernabschnitts 13 zu der Spracherkennungsvorrichtung von Ausführungsform 2 aufgebaut ist, kann sie auch durch Hinzufügen des Varianz erwägenden Äußerungstiming-Lernabschnitts 13 zur Spracherkennungsvorrichtung von Ausführungsform 1 aufgebaut werden. Auch in diesem Fall kann sie denselben Effekt und dieselben Vorteile wie jene der vorstehenden Spracherkennungsvorrichtung der Ausführungsform 4 erzielen.
AUSFÜHRUNGSFORM 5
9 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 5 gemäß der vorliegenden Erfindung zeigt. Die Spracherkennungsvorrichtung ist durch Hinzufügen einer Korrekturtaste 14 zur Spracherkennungsvorrichtung von Ausführungsform 4 durch Ändern der Funktion des Varianz-erwägenden Äußerungstiming-Lernabschnitt 13 aufgebaut. Nachfolgend werden zu den Komponenten der Spracherkennungsvorrichtung von Ausführungsform 4 gleiche oder ähnliche Bereiche mit denselben Bezugszeichen, die in Ausführungsform 4 verwendet worden sind, bezeichnet und ihre Beschreibung wird weggelassen und die Beschreibung wird fokussierend auf sich von der Spracherkennungsvorrichtung der Ausführungsform 4 unterscheidende Teile gegeben.
Die Korrekturtaste 14 ist beispielsweise auf einem Bildschirm oder einen Manipulationsabschnitt (nicht gezeigt) vorgesehen und wird dazu verwendet, anzuweisen, das letzte Erkennungsergebnis zu löschen, durch ihr Herunterdrücken, nachdem das Erkennungsergebnis den Anwender dargestellt wird. Ein Korrektur-Signal, das anzeigt, dass die Korrekturtaste 14 heruntergedrückt wird, wird zum Varianz erwägenden Äußerungstiming-Lernabschnitts 13 geliefert.
Der Varianz-erwägende Äußerungstiming-Lernabschnitt 13 lernt das Äußerungstiming unter Erwägung der Varianz auf Basis der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit und des aus der Korrekturtaste 14 gelieferten Korrektursignals. Genauer gesagt, berechnet der Varianz-erwägende Äußerungstiming-Lernabschnitt 13 den Äußerungstiming-Entscheidungsschwellenwert unter Erwägung der Varianz auf Basis der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit und der Dauer ab dem Zeitpunkt, wenn der Sprachausgabeabschnitt 8 die Antwortführung sprachlich ausgibt oder ab dem Zeitpunkt, wenn der Telop-Ausgabeabschnitt 9 den Telop anzeigt, bis zu dem Zeitpunkt, wenn die Korrekturtaste 14 das Aufheben anweist. Der von dem Varianz erwägenden Äußerungstiming-Lernabschnitt 13 berechnete Äußerungstiming-Entscheidungsschwellenwert wird zum Äußerungstiming-Entscheidungsabschnitt 5 geliefert.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung von Ausführungsform 5 gemäß der vorliegenden Erfindung mit der vorstehenden Konfiguration unter Bezugnahme auf ein in 10 gezeigtes Sequenzdiagramm beschrieben.
Bezüglich des Betriebs ab dem Zeitpunkt, wenn der Sprachstartauslöser an den Äußerungsstartzeit-Detektionsabschnitt 4 in Reaktion auf eine Anwendermanipulation des Sprachstart-Anweisungsabschnitts 3 geliefert wird, bis zu dem Zeitpunkt, wenn der Äußerungsstartzeit-Detektionsabschnitt 4 die Äußerungsstartzeit ausgibt, ist er der gleiche wie derjenige der Spracherkennungsvorrichtung der oben beschriebenen Ausführungsform 2. Die aus dem Äußerungsstartzeit-Detektionsabschnitt 4 ausgegebene Äußerungsstartzeit wird dem Äußerungstiming-Entscheidungsabschnitt 5 und dem Varianz-erwägenden Äußerungstiming-Lernabschnitt 13 geliefert.
Andererseits hat der Sprachausgabeabschnitt 8 die Antwortführung als Sprache ausgegeben und hat der Telop-Ausgabeabschnitt 9 den Telop zuvor angezeigt, und wenn die Korrekturtaste 14 in diesem Zustand heruntergedrückt wird, wird das diesen Effekt anzeigende Korrektursignal an den Varianz erwägenden Äußerungstiming-Lernabschnitt 13 geliefert. Der Varianz-erwägende Äußerungstiming-Lernabschnitt 13 berechnet den Äußerungstiming-Entscheidungsschwellenwert unter Erwägen der Varianz auf Basis der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit und der Dauer ab dem Zeitpunkt, wenn der Sprachausgabeabschnitt 8 die Antwortführung als Sprache ausgibt oder ab dem Zeitpunkt, wenn der Telop-Ausgabeabschnitt 9 den Telop anzeigt, bis zu dem Zeitpunkt, wenn die Korrekturtaste 14 das Aufheben anweist, und liefert ihn an den Äußerungstiming-Entscheidungsabschnitt 5.
Der Äußerungstiming-Entscheidungsabschnitt 5 entscheidet über das Äußerungstiming (rasch/langsam) durch Vergleichen der aus dem Äußerungsstartzeit-Detektionsabschnitt 4 gelieferten Äußerungsstartzeit mit dem aus dem Varianz erwägenden Äußerungstiming-Lernabschnitt 13 gelieferten Äußerungstiming-Entscheidungsschwellenwert und liefert das Entscheidungsresultat an den Spracherkennungsbewertungs-Korrekturabschnitt 10. Andererseits erkennt der Spracherkennungsabschnitt 2, der das Sprachsignal aus dem Spracherkennungsabschnitt 1 empfängt, die Sprache, die der Anwender ausstößt, auf Basis des Sprachsignals und liefert das Erkennungsresultat an den Spracherkennungsbewertungs-Korrekturabschnitt 10. Der Betrieb danach ist derselbe wie derjenige der Spracherkennungsvorrichtung der Ausführungsform 3.
Wie oben beschrieben, gemäß der Spracherkennungsvorrichtung von Ausführungsform 5 gemäß der vorliegenden Erfindung, da sie das Lernen unter Erwägung der Information zum Resultat der Erkennung und der Dauer bis zum Drücken der Korrekturtaste 14 ausführt, um den Äußerungstiming-Entscheidungsschwellenwert zu erzeugen, kann sie das Lernen des Äußerungstimings robuster machen.
Übrigens, obwohl die Spracherkennungsvorrichtung der Ausführungsform 5 durch Hinzufügen der Korrekturtaste 14 zu der Spracherkennungsvorrichtung von Ausführungsform 4 aufgebaut ist, kann sie auch durch Hinzufügen der Korrekturtaste 14 zur Spracherkennungsvorrichtung von Ausführungsform 2 oder Ausführungsform 3 aufgebaut werden. Auch in diesem Fall kann sie denselben Effekt und dieselben Vorteile wie jene der vorstehenden Spracherkennungsvorrichtung der Ausführungsform 5 erzielen.
AUSFÜHRUNGSFORM 6
11 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 6 gemäß der vorliegenden Erfindung zeigt. Die Spracherkennungsvorrichtung ist durch Hinzufügen eines Laufzustands-Detektionsabschnitts 15 zur Spracherkennungsvorrichtung von Ausführungsform 5 durch Ändern der Funktion des Spracherkennungsbewertungs-Korrekturabschnitts 10 aufgebaut. Nachfolgend werden zu den Komponenten der Spracherkennungsvorrichtung von Ausführungsform 5 gleiche oder ähnliche Bereiche mit denselben Bezugszeichen, die in Ausführungsform 5 verwendet worden sind, bezeichnet und ihre Beschreibung wird weggelassen und die Beschreibung wird fokussierend auf sich von der Spracherkennungsvorrichtung der Ausführungsform 5 unterscheidende Teile gegeben.
Als der Laufzustands-Detektionsabschnitt 15 kann eine Ortsdetektionseinheit zum Detektieren der aktuellen Position, die in einem Fahrzeug-Navigationssystem oder dergleichen vorgesehen ist, verwendet werden. Der Laufzustands-Detektionsabschnitt 15 detektiert einen Laufzustand auf Basis der von der Ortsdetektionseinheit erhaltenen Positionsinformation. Die den Laufzustand zeigenden Daten, detektiert durch den Laufzustands-Detektionsabschnitt 15, werden zum Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert. Übrigens kann der Laufzustands-Detektionsabschnitt 15 auch in einer solchen Weise aufgebaut sein, dass er einen Fahrbetriebszustand zusätzlich zum auf Basis der Positionsinformation detektierten Laufzustand detektiert. In diesem Fall werden der durch den Laufzustands-Detektionsabschnitt 15 detektierten Laufzustand oder Fahrbetriebszustand zum Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert.
Alternativ kann als der Laufzustands-Detektionsabschnitt 15 eine Beschleunigungsdetektionseinheit zum Detektieren der Beschleunigung, die im Autonavigationssystem oder dergleichen vorgesehen ist, verwendet werden. In diesem Fall detektiert der Laufzustands-Detektionsabschnitt 15 den Laufzustand auf Basis der durch die Beschleunigungsdetektionseinheit erhaltenen Beschleunigung. Die den vom Laufzustands-Detektionsabschnitt 15 detektierten Laufzustand zeigenden Daten werden zum Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert. Übrigens kann der Laufzustands-Detektionsabschnitt 15 auch in einer solchen Weise aufgebaut sein, dass er einen Betriebszustand zusätzlich zum auf Basis der Beschleunigung detektierten Laufzustand detektiert. In diesem Fall werden die Daten, die den durch den Laufzustands-Detektionsabschnitt 15 detektierten Laufzustand oder Fahrbetriebszustand zeigen, an den Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert.
Weiterhin können als der Laufzustands-Detektionsabschnitt 15 sowohl die Ortsdetektionseinheit zum Detektieren der aktuellen Position als auch die Beschleunigungsdetektionseinheit zum Detektieren der Beschleunigung, die im Fahrzeug-Navigationssystem oder dergleichen vorgesehen sind, verwendet werden. Der Laufzustands-Detektionsabschnitt 15 detektiert den Laufzustand auf Basis der durch die Ortsdetektionseinheit erhaltenen Positionsinformation und der durch die Beschleunigungsdetektionseinheit erhaltenen Beschleunigung. Die den Laufzustand zeigenden Daten, detektiert durch den Laufzustands-Detektionsabschnitt 15, werden an den Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert. Übrigens kann der Laufzustands-Detektionsabschnitt 15 auch auf solche Weise aufgebaut sein, dass er einen Fahrbetriebszustand zusätzlich zum auf Basis der Positionsinformation und Beschleunigung detektierten Laufzustand detektiert. In diesem Fall werden die den Laufzustand oder Fahrbetriebszustand zeigenden Daten, detektiert durch den Laufzustands-Detektionsabschnitt 15, zum Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert.
Der Spracherkennungsbewertungs-Korrekturabschnitt 10 korrigiert das Spracherkennungsergebnis der aus dem Spracherkennungsabschnitt 2 gelieferten Worte anhand des aus dem Äußerungstiming-Entscheidungsabschnitt 5 gelieferten Äußerungstimings und der aus dem Laufzustands-Detektionsabschnitt 15 gelieferten, den Laufzustand anzeigenden Daten. Wenn beispielsweise entschieden wird, dass das Fahrzeug auf einer Schnellstraße läuft, aus den, den Laufzustand anzeigenden Daten, erwägt sie, dass Lenken oder Pedalbetätigungen nicht oft auftreten. Entsprechend, wenn das Timing der Äußerung ungefähr gleichzeitig vorkommt, korrigiert sie sie in solcher Weise, dass die Spracherkennungsbewertung reduziert wird. Die Worte, denen die durch den Spracherkennungsbewertungs-Korrekturabschnitt 10 korrigierte Spracherkennungsbewertung angehängt wird, werden zum Bewertungsgrenz-Entscheidungsabschnitt 11 geliefert.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung von Ausführungsform 6 gemäß der vorliegenden Erfindung mit der vorstehenden Konfiguration unter Bezugnahme auf ein in 12 gezeigtes Sequenzdiagramm beschrieben. Übrigens wird der Betrieb der Korrekturtaste 14 in 12 weggelassen.
Bezüglich des Betriebs ab dem Zeitpunkt, wenn der Äußerungsstartauslöser in Reaktion auf einer Anwendermanipulation des Sprachstart-Anweisungsabschnitts 3 zum Äußerungsstartzeit-Detektionsabschnitt 4 geliefert wird, bis zum dem Zeitpunkt, wenn das Äußerungstiming (schnell/langsam) aus dem Äußerungstiming-Entscheidungsabschnitt 5 an den Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert wird, und bezüglich des Betriebes, bei dem der Spracherkennungsabschnitt 2, der das Sprachsignal aus dem Spracheingabeabschnitt 1 empfängt, das Erkennungsergebnis an den Spracherkennungsbewertungs-Korrekturabschnitt 10 liefert, sind diese dieselben wie jene der Spracherkennungsvorrichtung der oben beschriebenen Ausführungsform 5.
Der Spracherkennungsbewertungs-Korrekturabschnitt 10, der das Erkennungsergebnis aus dem Spracherkennungsabschnitt 2 erhält, korrigiert die aus dem Spracherkennungsabschnitt 2 gelieferte Spracherkennungsbewertung der Worte anhand des aus dem Äußerungstiming-Entscheidungsabschnitt 5 gelieferten Äußerungstimings und der den aus dem Laufzustands-Detektionsabschnitt 15 gelieferten, den Laufzustand anzeigenden Daten, hängt die Spracherkennungsbewertung an die Worte an und liefert an den Bewertungsgrenz-Entscheidungsabschnitt 11. Der nachfolgende Betrieb ist derselbe wie bei der Spracherkennungsvorrichtung der Ausführungsform 2.
Wie oben beschrieben, gemäß der Spracherkennungsvorrichtung von Ausführungsform 6 gemäß der vorliegenden Erfindung, da sie den Laufzustand wie etwa die aktuelle Position beispielsweise detektieren kann und bewerten kann, ob die Verschiebung des Äußerungstimings an dem Laufzustand liegt oder nicht, kann sie den Anwender mit dem Erkennungsergebnis oder Antwortführung unter Erwägung des Laufzustands versorgen.
Übrigens, obwohl die Spracherkennungsvorrichtung der Ausführungsform 6 durch Hinzufügen des Laufzustands-Detektionsabschnitts 15 zur Spracherkennungsvorrichtung der Ausführungsform 5 aufgebaut ist, kann sie auch durch Hinzufügen des Laufzustands-Detektionsabschnitts 15 zur Spracherkennungsvorrichtung irgendeiner der Ausführungsformen 2 bis 4 aufgebaut sein. Auch in diesem Fall kann sie denselben Effekt und dieselben Vorteile wie jene der vorstehenden Spracherkennungsvorrichtung der Ausführungsform 6 erzielen.
AUSFÜHRUNGSFORM 7
13 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 7 gemäß der vorliegenden Erfindung zeigt. Die Spracherkennungsvorrichtung ist durch Hinzufügen eines Fahrbetriebs-Detektionsabschnitt 16 zur Spracherkennungsvorrichtung von Ausführungsform 5 durch Ändern der Funktion des Spracherkennungsbewertungs-Korrekturabschnitts 10 aufgebaut. Nachfolgend werden zu den Komponenten der Spracherkennungsvorrichtung von Ausführungsform 5 gleiche oder ähnliche Bereiche mit denselben Bezugszeichen, die in Ausführungsform 5 verwendet worden sind, bezeichnet und ihre Beschreibung wird weggelassen und die Beschreibung wird fokussierend auf sich von der Spracherkennungsvorrichtung der Ausführungsform 5 unterscheidende Teile gegeben.
Der Fahrbetriebs-Detektionsabschnitt 15 detektiert den aktuellen Fahrbetriebszustand aus Signalen, die vom Gaspedal, Bremspedal oder Rad des Fahrzeugs geliefert werden (keines von ihnen ist gezeigt). Die vom Fahrbetriebs-Detektionsabschnitt 16 detektierten, den Fahrbetrieb anzeigenden Daten werden an den Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert.
Der Spracherkennungsbewertungs-Korrekturabschnitt 10 korrigiert das Spracherkennungsergebnis der aus dem Spracherkennungsabschnitt 2 gelieferten Worte anhand des aus dem Äußerungstiming-Entscheidungsabschnitt 5 gelieferten Äußerungstimings und der aus dem Fahrbetriebs-Detektionsabschnitt 16 gelieferten, den Fahrbetriebszustand anzeigenden Daten. Wenn beispielsweise entschieden wird, dass das Fahrzeug zurücksetzt, aus den, den Fahrbetrieb anzeigenden Daten, erwägt sie, dass der Fahrer seinen Geist auf das Beobachten der Umgebung konzentriert. Entsprechend, selbst wenn das Timing der Äußerung ungefähr gleichzeitig vorkommt, korrigiert sie nicht in solcher Weise, dass die Spracherkennungsbewertung reduziert wird. Die Worte, denen die durch den Spracherkennungsbewertungs-Korrekturabschnitt 10 korrigierte Spracherkennungsbewertung angehängt wird, werden zum Bewertungsgrenz-Entscheidungsabschnitt 11 geliefert.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung von Ausführungsform 7 gemäß der vorliegenden Erfindung mit der vorstehenden Konfiguration unter Bezugnahme auf ein in 14 gezeigtes Sequenzdiagramm beschrieben. Übrigens wird der Betrieb der Korrekturtaste 14 in 14 weggelassen.
Bezüglich des Betriebs ab dem Zeitpunkt, wenn der Äußerungsstartauslöser in Reaktion auf einer Anwendermanipulation des Sprachstart-Anweisungsabschnitts 3 zum Äußerungsstartzeit-Detektionsabschnitt 4 geliefert wird, bis zum dem Zeitpunkt, wenn das Äußerungstiming (schnell/langsam) aus dem Äußerungstiming-Entscheidungsabschnitt 5 an den Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert wird, und bezüglich des Betriebes, bei dem der Spracherkennungsabschnitt 2, der das Sprachsignal aus dem Spracheingabeabschnitt 1 empfängt, das Erkennungsergebnis an den Spracherkennungsbewertungs-Korrekturabschnitt 10 liefert, sind diese dieselben wie jene der Spracherkennungsvorrichtung der oben beschriebenen Ausführungsform 5.
Der Spracherkennungsbewertungs-Korrekturabschnitt 10, der das Erkennungsergebnis aus dem Spracherkennungsabschnitt 2 erhält, korrigiert die aus dem Spracherkennungsabschnitt 2 gelieferte Spracherkennungsbewertung der Worte anhand des aus dem Äußerungstiming-Entscheidungsabschnitt 5 gelieferten Äußerungstimings und der den aus dem Fahrbetriebs-Detektionsabschnitt 16 gelieferten, den Fahrbetriebszustand anzeigenden Daten, hängt die Spracherkennungsbewertung an die Worte an und liefert an den Bewertungsgrenz-Entscheidungsabschnitt 11. Der nachfolgende Betrieb ist derselbe wie bei der Spracherkennungsvorrichtung der Ausführungsform 2.
Wie oben beschrieben, gemäß der Spracherkennungsvorrichtung von Ausführungsform 7 gemäß der vorliegenden Erfindung, da sie den Fahrbetriebszustand wie etwa beispielsweise das Umrunden einer Kurve detektieren kann und bewerten kann, ob die Verschiebung des Äußerungstimings an dem Fahrbetriebszustand liegt oder nicht, kann sie den Anwender mit dem Erkennungsergebnis oder Antwortführung unter Erwägung des Fahrbetriebszustands versorgen.
Übrigens, obwohl die Spracherkennungsvorrichtung der Ausführungsform 6 durch Hinzufügen des Fahrbetriebs-Detektionsabschnitt 16 zur Spracherkennungsvorrichtung der Ausführungsform 5 aufgebaut ist, kann sie auch durch Hinzufügen des Fahrbetriebs-Detektionsabschnitt 16 zur Spracherkennungsvorrichtung irgendeiner der Ausführungsformen 2 bis 4 aufgebaut sein. Auch in diesem Fall kann sie denselben Effekt und dieselben Vorteile wie jene der vorstehenden Spracherkennungsvorrichtung der Ausführungsform 7 erzielen.
Ausführungsform 8
15 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 8 gemäß der vorliegenden Erfindung zeigt. Die Spracherkennungsvorrichtung ist durch Hinzufügen eines Fahrzeugausrüstungsbetriebszustands-Sammelabschnitt 17 zur Spracherkennungsvorrichtung von Ausführungsform 5 durch Ändern der Funktion des Spracherkennungsbewertungs-Korrekturabschnitts 10 aufgebaut. Nachfolgend werden zu den Komponenten der Spracherkennungsvorrichtung von Ausführungsform 5 gleiche oder ähnliche Bereiche mit denselben Bezugszeichen, die in Ausführungsform 5 verwendet worden sind, bezeichnet und ihre Beschreibung wird weggelassen und die Beschreibung wird fokussierend auf sich von der Spracherkennungsvorrichtung der Ausführungsform 5 unterscheidende Teile gegeben.
Der Fahrzeugausrüstungsbetriebszustands-Sammelabschnitt 17 sammelt Daten, die den Betriebszustand von Fahrzeugausrüstung (einschließlich Onboard-Ausrüstung) wie etwa Fenster, Türen, Klimaanlage und Autoradio-Ausrüstung, die über ein Onboard-Netzwerk wie etwa einem CAN (Controller Area Network), MOST (Media Oriented Systems Transport), LAN (Local Area Network) oder FlexRay verbunden sind, anzeigt. Die den Betriebszustand der Fahrzeugausrüstung anzeigenden Daten, die durch den Fahrbetriebs-Detektionsabschnitt 16 detektiert sind, werden zum Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert.
Der Spracherkennungsbewertungs-Korrekturabschnitt 10 korrigiert das Spracherkennungsergebnis der aus dem Spracherkennungsabschnitt 2 gelieferten Worte anhand des aus dem Äußerungstiming-Entscheidungsabschnitt 5 gelieferten Äußerungstimings und der den Betriebszustand der Fahrzeugausrüstung anzeigenden Daten, die aus dem Fahrbetriebs-Detektionsabschnitt 16 geliefert werden. Wenn beispielsweise entschieden wird, dass der Anwender die Klimaanlage manipuliert, erwägt sie, dass der Anwender seine oder ihre Aufmerksamkeit auf die Manipulation richtet. Entsprechend, selbst wenn das Timing der Äußerung zum etwa selben Zeitpunkt auftritt, korrigiert sie in solcher Weise, dass die Spracherkennungsbewertung reduziert wird. Die Worte, denen die durch den Spracherkennungsbewertungs-Korrekturabschnitt 10 korrigierte Spracherkennungsbewertung angehängt werden, werden zum Bewertungsgrenz-Entscheidungsabschnitt 11 geliefert.
Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung von Ausführungsform 8 gemäß der vorliegenden Erfindung mit der vorstehenden Konfiguration unter Bezugnahme auf ein in 16 gezeigtes Sequenzdiagramm beschrieben. Übrigens wird der Betrieb der Korrekturtaste 14 in 16 weggelassen.
Bezüglich des Betriebs ab dem Zeitpunkt, wenn der Äußerungsstartauslöser in Reaktion auf einer Anwendermanipulation des Sprachstart-Anweisungsabschnitts 3 zum Äußerungsstartzeit-Detektionsabschnitt 4 geliefert wird, bis zum dem Zeitpunkt, wenn das Äußerungstiming (schnell/langsam) aus dem Äußerungstiming-Entscheidungsabschnitt 5 an den Spracherkennungsbewertungs-Korrekturabschnitt 10 geliefert wird, und bezüglich des Betriebes, bei dem der Spracherkennungsabschnitt 2, der das Sprachsignal aus dem Spracheingabeabschnitt 1 empfängt, das Erkennungsergebnis an den Spracherkennungsbewertungs-Korrekturabschnitt 10 liefert, sind diese dieselben wie jene der Spracherkennungsvorrichtung der oben beschriebenen Ausführungsform 5.
Der Spracherkennungsbewertungs-Korrekturabschnitt 10, der das Erkennungsergebnis aus dem Spracherkennungsabschnitt 2 erhält, korrigiert die aus dem Spracherkennungsabschnitt 2 gelieferte Spracherkennungsbewertung der Worte anhand des aus dem Äußerungstiming-Entscheidungsabschnitt 5 gelieferten Äußerungstimings und der den aus dem Fahrzeugausrüstungsbetriebszustands-Sammelabschnitt 17 gelieferten, den Betriebszustand von Fahrzeugausrüstung anzeigenden Daten, hängt die Spracherkennungsbewertung an die Worte an und liefert an den Bewertungsgrenz-Entscheidungsabschnitt 11. Der nachfolgende Betrieb ist derselbe wie bei der Spracherkennungsvorrichtung der Ausführungsform 2.
Wie oben beschrieben, kann gemäß der Spracherkennungsvorrichtung von Ausführungsform 8 gemäß der vorliegenden Erfindung sie den Anwender mit dem Erkennungsresultat oder Antwortführung versorgen, die den Betriebszustand von Fahrzeugausrüstung erwägt, wie etwa das Öffnen oder Schließen der Fenster oder Türen, Steuerung der Klimaanlage und der Laufzustand.
Übrigens, obwohl die Spracherkennungsvorrichtung der Ausführungsform 8 durch Hinzufügen des Fahrzeugausrüstungs-Betriebszustandssammelabschnitts 17 zur Spracherkennungsvorrichtung von Ausführungsform 5 aufgebaut ist, kann sie auch durch Hinzufügen des Fahrzeugausrüstungs-Betriebszustandssammelabschnitts zur Spracherkennungsvorrichtung irgendeiner der Ausführungsformen 2 bis 4 aufgebaut werden. Auch in diesem Fall kann sie denselben Effekt und dieselben Vorteile wie jene der vorstehenden Spracherkennungsvorrichtung von Ausführungsform 8 erzielen.
INDUSTRIELLE ANWENDBARKEIT
Wie oben beschrieben, da die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung auf solche Weise konfiguriert ist, dass sie eine Systemantwort mit einem Inhalt entsprechend dem Äußerungstiming ausgibt, um die angemessenen Telops und Systemantworten auszugeben, ist sie für Onboard-Endgeräte geeignet, die Betrieb durch Äußerung ermöglichen.

Claims

Spracherkennungsvorrichtung, umfassend: einen Sprachstart-Anweisungsabschnitt (3) zum Anweisen, Spracherkennung zu starten; einen Spracheingabeabschnitt (1) zum Empfangen von geäußerter Sprache und zum Umwandeln derselben in ein Sprachsignal; einen Spracherkennungsabschnitt (2) zum Erkennen der Sprache auf Basis des aus dem Spracheingabeabschnitt gelieferten Sprachsignals, und zum Erzeugen eines Erkennungsresultats und einer Spracherkennungsbewertung, welche die Wahrscheinlichkeit der Richtigkeit von durch den Spracherkennungsabschnitt (2) erkannten Worten repräsentiert; einen Äußerungsstartzeit-Detektionsabschnitt (4) zum Detektieren einer Äußerungsstartzeit als der Dauer von dem Zeitpunkt, wenn der Sprachstart-Anweisungsabschnitt (3) anweist, die Spracherkennung zu starten, bis zu dem Zeitpunkt, wenn der Spracheingabeabschnitt (1) das Sprachsignal liefert; einen Äußerungstiming-Entscheidungsabschnitt (5) zum Entscheiden, dass ein Äußerungstiming schnell ist, falls die Äußerungsstartzeit gleich oder kleiner einem vorgegebenen Schwellenwert ist, oder dass das Äußerungstiming langsam ist, falls die Äußerungsstartzeit größer als der Schwellenwert ist; einen Spracherkennungsbewertungs-Korrekturabschnitt (10) zum Korrigieren der Spracherkennungsbewertung, anhand des entschiedenen Äußerungstimings; einen Bewertungsgrenz-Entscheidungsabschnitt (11) zum Entscheiden, ob das Erkennungsresultat bereitzustellen ist oder nicht, in Übereinstimmung mit der korrigierten Spracherkennungsbewertung, einen Interaktionssteuerabschnitt (6) zum Festlegen, anhand des Entscheidungsresultats des Bewertungsgrenz-Entscheidungsabschnittes (11), eines Inhalts, der einem Anwender zu zeigen ist; einen Systemantwort-Erzeugungsabschnitt (7) zum Erzeugen einer Systemantwort auf Basis des zu zeigenden Inhalts, der durch den Interaktions-Steuerabschnitt (6) festgelegt ist, und einen Ausgabeabschnitt (8, 9) zum Ausgeben der durch den Systemantwort-Erzeugungsabschnitt (7) erzeugten Systemantwort.
Spracherkennungsvorrichtung, umfassend: einen Sprachstart-Anweisungsabschnitt (3) zum Anweisen, Spracherkennung zu starten; einen Spracheingabeabschnitt (1) zum Empfangen von geäußerter Sprache und zum Umwandeln derselben in ein Sprachsignal; einen Spracherkennungsabschnitt (2) zum Erkennen der Sprache auf Basis des aus dem Spracheingabeabschnitt gelieferten Sprachsignals und zum Erzeugen eines Erkennungsresultats; einen Äußerungsstartzeit-Detektionsabschnitt (4) zum Detektieren einer Äußerungsstartzeit als der Dauer von dem Zeitpunkt, wenn der Sprachstart-Anweisungsabschnitt (3) anweist, die Spracherkennung zu starten, bis zu dem Zeitpunkt, wenn der Spracheingabeabschnitt (1) das Sprachsignal liefert; ein Äußerungstiming-Lernabschnitt (13) zum Berechnen eines Schwellenwerts, der zum Entscheiden über ein Äußerungstiming benutzt wird, einen Äußerungstiming-Entscheidungsabschnitt (5) zum Entscheiden, dass das Äußerungstiming schnell ist, falls die Äußerungsstartzeit gleich oder kleiner dem Schwellenwert ist, oder dass das Äußerungstiming langsam ist, falls die Äußerungsstartzeit größer als der Schwellenwert ist; einen Interaktionssteuerabschnitt (6) zum Festlegen, anhand des entschiedenen Äußerungstimings, eines Inhalts, der einem Anwender beim Darstellen des Erkennungsresultats zu zeigen ist; einen Systemantwort-Erzeugungsabschnitt (7) zum Erzeugen einer Systemantwort auf Basis des zu zeigenden Inhalts, der durch den Interaktions-Steuerabschnitt (6) festgelegt ist, und einen Ausgabeabschnitt (8, 9) zum Ausgeben der durch den Systemantwort-Erzeugungsabschnitt (7) erzeugten Systemantwort; und eine Korrekturtaste (14) zum Anweisen, das Erkennungsresultat des Spracherkennungsabschnitt (2) aufzuheben, wobei der Äußerungstiming-Lernabschnitt (13) ausgelegt ist, den Schwellenwert auf Basis einer Varianz von Äußerungsstartzeiten in mehreren Malen vorheriger Versuche und auf Basis einer Varianz einer Dauer von einem Zeitpunkt, wenn der Ausgabeabschnitt (8, 9) die Systemantwort ausgibt, bis zu einem Zeitpunkt, wenn die Korrekturtaste (14) das Aufheben anweist, zu berechnen.
Spracherkennungsvorrichtung gemäß Anspruch 1, weiter umfassend: einen Laufzustands-Detektionsabschnitt (15) zum Detektieren eines Laufzustands eines Fahrzeugs, in dem die Spracherkennungsvorrichtung montiert ist, wobei der Spracherkennungsbewertungs-Korrekturabschnitt (10) die Spracherkennungsbewertung zusätzlich anhand des detektierten Laufzustands korrigiert.
Spracherkennungsvorrichtung gemäß Anspruch 1, weiter umfassend: einen Fahrbetriebs-Detektionsabschnitt (16) zum Detektieren eines Fahrbetriebszustands eines Fahrzeugs, in dem die Spracherkennungsvorrichtung montiert ist, wobei der Spracherkennungsbewertungs-Korrekturabschnitt (10) die Spracherkennungsbewertung zusätzlich anhand des detektierten Fahrbetriebszustands korrigiert.
Spracherkennungsvorrichtung gemäß Anspruch 3, wobei der Laufzustands-Detektionsabschnitt (15) aus einer Ortsdetektionseinheit zum Detektieren der aktuellen Position und zum Ausgeben als Positionsinformation besteht; und über den Laufzustand oder den Fahrbetriebszustand, anhand der aus der Ortsdetektionseinheit ausgegebenen Positionsinformation entschieden wird.
Spracherkennungsvorrichtung gemäß Anspruch 3, wobei der Laufzustands-Detektionsabschnitt (15) aus einer Beschleunigungsdetektionseinheit zum Detektieren von Beschleunigung besteht; und über den Laufzustand und den Fahrbetriebszustand anhand der durch die Beschleunigungsdetektionseinheit detektierten Beschleunigung entschieden wird.
Spracherkennungsvorrichtung gemäß Anspruch 3, wobei der Laufzustands-Detektionsabschnitt (15) aus einer Ortsdetektionseinheit zum Detektieren der aktuellen Position und zum Ausgeben als Positionsinformation, und einer Beschleunigungsdetektionseinheit zum Detektieren von Beschleunigung besteht; und über den Laufzustand, anhand der aus der Ortsdetektionseinheit ausgegebenen Positionsinformation entschieden wird, und über den Fahrbetriebszustand, anhand der durch die Beschleunigungsdetektionseinheit detektierten Beschleunigung entschieden wird.
Spracherkennungsvorrichtung gemäß Anspruch 1, weiter umfassend: einen Fahrzeugausrüstungsbetriebszustands-Sammelabschnitt zum Sammeln eines Betriebszustands von Fahrzeugausrüstung in einem Fahrzeug, in dem die Spracherkennungsvorrichtung montiert ist über ein Onboard-Netzwerk des Fahrzeugs, wobei der Spracherkennungsbewertungs-Korrekturabschnitt (10) zusätzlich die Spracherkennungsbewertung anhand des Betriebszustands der Fahrzeugausrüstung, der durch den Fahrzeugausrüstungsbetriebszustands-Sammelabschnitt gesammelt wird, korrigiert.