DE60032193T2

DE60032193T2 - Verfahren und System zur Auswahl erkannter Wörter bei der Korrektur erkannter Sprache

Info

Publication number: DE60032193T2
Application number: DE60032193T
Authority: DE
Inventors: c/o Kawagoe Koujou Takahiro Kawagoe-shi Iwata
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 1999-05-03
Filing date: 2000-05-03
Publication date: 2007-11-22
Also published as: DE60032193T8; JP3980791B2; EP1050872A3; EP1050872A2; JP2000315096A; EP1050872B1; DE60032193D1; US6385582B1

Description

HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf ein Mensch-Maschine-System mit Spracherkennungsfunktionen, und im Spezielleren auf ein Mensch-Maschine-System, bei dem ein Benutzer auf der Benutzerseite auf einfache Weise gewünschte Befehle eingeben kann, und bei dem gewünschte Prozesse in Übereinstimmung mit den Benutzerbefehlen auf der Seite des Mensch-Maschine-Systems ordnungsgemäß ausgeführt werden können.
Obwohl das Konzept von Mensch-Maschine-Systemen anfänglich ein System (Gerät) betraf, das dazu ausgelegt war, die jeweiligen Vorteile von Mensch und Computern zum Vorteil miteinander zu kombinieren, geht man heutzutage davon aus, dass dieses Konzept auch Systeme einschließt, welche die Verbindungen zwischen Mensch und Maschinen im Allgemeineren (Maschinen im weiteren Sinne) sowie Computern erleichtern.
Als solch ein Mensch-Maschine-System sind Systeme bekannt, die mit einer Spracherkennungsvorrichtung ausgestattet sind, bei denen ein Sprecher (Benutzer) sein Vorhaben über Spracheingabe kundtun (befehlen) kann. Beispielsweise ist ein Navigationssystem für Autos bekannt, das sich des GPS-Fahrschemas (GPS – globales Positionierungssystem) bedient. Bei diesem Navigationssystem können Benutzer über Spracheingabe ein Ziel, usw. angeben.
Wenn ein Benutzer ein bestimmtes Ziel ausspricht, erkennt dieses Navigationssystem über Spracherkennung das Ziel, sucht einen Fahrtweg von der momentanen geografischen Lage zum Ziel, und zeigt den gesuchten Fahrtweg über eine Anzeigevorrichtung auf einer Karte an.
Beispielsweise erkennt das Navigationssystem das vom Benutzer angegebene Ziel, indem es die in 13 gezeigten vorbestimmten Schritte ausführt. Angenommen, der Benutzer möchte einen Fahrtweg nach „Meguro Station" wissen, bei der es sich um das Ziel handelt. Zuerst generiert beim ersten Schritt ein Sprachsynthesizer in der Spracherkennungsvorrichtung einen synthetischen Hörschall für „Bitte Namen eingeben", um den Benutzer aufzufordern, einen bestimmten Zielnamen sprachlich einzugeben (auszusprechen). Wenn der Benutzer als Antwort „Meguro Station" ausspricht, extrahiert die Spracherkennungsvorrichtung die Kennzeichen der Aussprache des Worts „Meguro Station" und speichert die extrahierten Kennzeichenparameter D1 in einem Speicherteil oder dergleichen ab. Das heißt, beim ersten Schritt extrahiert das Sprachexkennungssystem nur die Kennzeichen der Aussprache des Worts „Meguro Station", ohne eine Endstufenerkennung durchzuführen.
Als Nächstes generiert der Sprachsynthesizer beim zweiten Schritt einen synthetischen Hörschall für „Bitte Oberbegriff eingeben", um den Benutzer aufzufordern, einen Oberbegriff oder eine Gattungsbezeichnung auszusprechen, bei dem bzw. der es sich um einen Begriff höherer Ebene handelt als das spezielle Ziel, das der Benutzer wünscht.
Spricht der Benutzer als Antwort „Bahnhofsname" aus, extrahiert die Spracherkennungsvorrichtung die Kennzeichen dieser Aussprache von „Bahnhofsname", um die entsprechenden Kennzeichenparameter D2 zu generieren. Darüber hinaus vergleicht die Spracherkennungsvorrichtung die Kennzeichenparameter D2 mit Erkennungsreferenzvokabularen in einem Erkennungswörterbuch, das vorab in der Spracherkennungsvorrichtung installiert wurde, und wählt ein Erkennungsreferenzvokabular LD2 aus, das dem Kennzeichenparameter D2 am ähnlichsten ist, wodurch eine Spracherkennung der Aussprache von „Bahnhofsname" durchgeführt wird, das der Benutzer ausgesprochen hat.
Als Nächstes generiert der Sprachsynthesizer beim Schritt 3 einen synthetischen Hörschall für „Bitte Ortsbezeichnung eingeben", um den Benutzer aufzufordern, eine Ortsbezeichnung auszusprechen.
Spricht der Benutzer als Antwort „Tokio" aus, extrahiert die Spracherkennungsvorrichtung die Kennzeichen dieser Aussprache von „Tokio", um die entsprechenden Kennzeichenparameter D3 zu generieren. Darüber hinaus vergleicht die Spracherkennungsvorrichtung die Kennzeichenparameter D3 mit Erkennungsreferenzvokabularen im Erkennungswörterbuch und wählt ein Erkennungsreferenzvokabular LD3 aus, das dem Kennzeichenparameter D3 am ähnlichsten ist, wodurch eine Spracherkennung der Aussprache des Worts „Tokio" durchgeführt wird, das der Benutzer ausgesprochen hat.
Als Nächstes grenzt beim Schritt 4 die Spracherkennungsvorrichtung die Erkennungsreferenzvokabulare unter den Erkennungsreferenzvokabularen im Erkennungswörterbuch auf diejenigen ein, die zu den Kategorien der Erkennungsreferenzvokabulare LD2 und LD3 gehören. Darüber hinaus vergleicht die Spracherkennungsvorrichtung den Kennzeichenparameter D1 mit den eingegrenzten Erkennungsreferenzvokabularen, um ein Erkennungsreferenzvokabular LD1 auszuwählen, das den Kennzeichenparametern D1 am ähnlichsten ist, um dadurch eine Spracherkennung des Worts „Meguro Station" durchzuführen, das beim ersten Schritt ausgesprochen wurde.
Und zwar ist es beim ersten Schritt, bei dem der Begriff niedrigerer Ebene des Namens „Meguro Station" ausgesprochen wird, im Allgemeinen schwierig, das Erkennungsreferenzvokabular LD1 auszumachen, das der Bezeichnung des Bahnhofs „Meguro Station" entspricht, der in dem Ort liegt, den der Benutzer wünscht.
Wegen dieser Schwierigkeit werden zuerst die Kennzeichenparameter D1 des ausgesprochenen Worts „Meguro Station" im Speicherteil gespeichert. Dann wird beim zweiten bis vierten Schritt ein Suchbereich für Erkennungsreferenzvokabulare im Erkennungswörterbuch eingegrenzt, indem die Aussprachen des Oberbegriffs und Ortsnamens vom Benutzer eingeholt werden. Indem dann die Kennzeichenparameter D1 mit den so eingegrenzten Erkennungsreferenzvokabularen verglichen werden, lässt sich das Erkennungsreferenzvokabular LD1, das „Meguro Station" entspricht, relativ leicht ausfindig machen.
Schließlich wird auf Grundlage der ausgewählten Erkennungsreferenzvokabulare LD3 und LD1 ein synthetischer Hörschall „Es ist OOO in ΔΔΔ, nicht wahr?" erzeugt, um dem Benutzer das Erkennungsergebnis zu liefern. Das heißt, wenn die Erkennungsreferenzvokabulare LD3 und LD1 richtig als „Tokio" bzw. „Meguro Station" erkannt werden, wird der synthetische Hörschall „Es ist OOO in ΔΔΔ, nicht wahr?" zu einem synthetischen Hörschall „Es ist Meguro Station in Tokio, nicht wahr?" und wird dem Benutzer als solcher dargeboten.
Somit wählt die Spracherkennungsvorrichtung lediglich die Erkennungsreferenzvokabulare LD1 bis LD3 aus dem Erkennungswörterbuch aus, die dem jeweiligen vom Benutzer ausgesprochenen Wort am ähnlichsten sind. Entsprechend besteht eine unvermeidliche Möglichkeit, dass in dem Fall, dass das vom Benutzer ausgesprochene Wort nicht klar war oder unter irgendwelchen anderen Umständen „Meguro Station" fälschlicherweise als „Mejiro Station" oder „Tokio" als „Kyoto" erkannt wird, usw. Falls eine derartige Fehlerkennung auftritt, würde dem Benutzer ein synthetischer Hörschall „Es ist Mejiro Station in Kyoto, nicht wahr?" geboten. Somit wird der synthetische Hörschall auf Grundlage der Erkennungsreferenzvokabulare LD3 und LD1 erzeugt, um den Benutzer, wie vorstehend beschrieben, um die Bestätigung der Erkennungsergebnisse zu bitten. Wenn der Benutzer, indem ex diese ihm so dargebotene synthetische Stimme hört, feststellt, dass eine korrekte Spracherkennung erfolgt ist, spricht er beispielsweise „Suche starten" aus. Dann erkennt dies die Spracherkennungsvorrichtung, das Navigationssystem erhält einen Bestätigungsbefehl und sucht einen Fahrtweg von der momentanen geografischen Stelle zum Bahnhof Meguro Station in Tokio. Das Navigationssystem zeigt dann über eine Anzeigevorrichtung den gesuchten Fahrtweg auf einer Karte an.
Stellt der Benutzer hingegen fest, dass die Erkennung falsch ist, zeigt er das an, indem er „zurück" ausspricht. Beim Erhalt dieses Befehls beginnt die Spracherkennungsvorrichtung die Spracherkennung von neuem und wiederholt die Spracherkennung, bis sie im Hinblick auf das wieder vorgelegte Erkennungsergebnis den Befehl „Suche starten" vom Benutzer erhält.
Wie vorstehend erläutert, besitzt das Navigationssystem insofern eine höhere Funktionalität als es Dialogvorgänge durch die Kombination einer Spracherkennungsvorrichtung und einem Sprachsynthesizer ermöglicht.
Da der Benutzer angeleitet wird, Wörter in der Reihenfolge auszusprechen, die mit den gewollten kennzeichnenden Angaben des Benutzers übereinstimmen, und die zu Schlüsselwörtern werden, bietet das System dem Benutzer auch einen besseren Komfort. Mit anderen Worten bestimmt der Benutzer, indem er das gewünschte Ziel angibt, das spezifischste Ziel (im vorstehenden Beispiel Meguro Station), und gibt dann dessen Oberbegriff und den Namen des Orts an, in dem das Ziel liegt. Somit passt sich das Mensch-Maschine-System den gewollten kennzeichnenden Angaben des Benutzers an.
Im Spezielleren verwendet dieses Informationssuchsystem als effizientes Informationsverwaltungsschema ein Schema, bei dem eine Kategorie, bei der es sich um einen Begriff höchster Ebene handelt, bestimmt wird, und Information eines Begriffs mittlerer Ebene und eines Begriffs niedrigerer Ebene, die sich auf den Begriff der höheren Ebene der Kategorie beziehen, auf hierarchische Weise abgehandelt werden. Indem eine solche hierarchische Struktur übernommen wird, wird die Einengung der Zielinformation, wenn ein Benutzer eine spezielle Information aus einer großen Menge an Begriffsinformation niedrigerer Ebene sucht, dadurch erzielt, dass der Begriff der höheren Ebene und der Begriff der mittleren Ebene genutzt wird, wodurch ein schneller Zugriff auf die gewünschte Information ermöglicht wird.
Ist jedoch ein Mensch-Maschine-System so aufgebaut, dass es Suchverfahren verwendet, die solch einem Informationssuchsystem ähnlich sind, sich aber davon unterscheiden, gibt es Situationen, in denen den gewollten kennzeichnenden Angaben des Benutzers nicht richtig Rechnung getragen wird. Ein Beispiel für solche Fälle ist folgendes. Angenommen, dass mit Bezug auf das Navigationssystem die Begriffskategorie der höheren Ebene „Oberbegriff" zuerst vom Benutzer verlangt wird und dieser als Antwort „Bahnhofsname" ausspricht; dann der Begriff der mittleren Ebene, „Ortsname" vom Benutzer verlangt wird und dieser als Antwort „Tokio" ausspricht; und schließlich der Benutzer nach dem Begriff der niedrigeren Ebene „spezieller Bahnhofsname" gefragt wird, und der Benutzer als Antwort „Meguro Station" ausspricht. In diesem Fall erfolgen die Abfragen in der Reihenfolge, die anders ist als die gewollten kennzeichnenden Angaben des Benutzers, und im Ergebnis bekommt der Benutzer ein ungutes Gefühl.
Von diesem Standpunkt her veranlasst das herkömmliche Navigationssystem den Benutzer, benutzergewollte Stichworte in der Reihenfolge einzugeben, die kein ungutes Gefühl hervorrufen und bietet dem Benutzer dementsprechend einen besseren Bedienungskomfort.
Auch bei den herkömmlichen Navigationssystemen gibt es jedoch Fälle, bei denen die folgenden Nachteile aufgrund des Einsatzes eines Spracherkennungsschemas auftreten, das sich den gewollten kennzeichnenden Angaben des Benutzers anpasst.
Beispielsweise wird im Fall von 13 der ausgesprochene Hörschall von „Meguro Station" im ersten Schritt nicht spracherkennungstechnisch behandelt. Erst nachdem die Eingrenzung beim zweiten bis vierten Schritt erfolgt ist, wird der Hörschall von „Meguro Station" spracherkennungstechnisch ausgewertet und das Erkennungsergebnis ausgegeben.
Tritt ein Erkennungsfehler auf, ergeht der Befehl „zurück", und die Spracherkennung wird wiederholt, um den Fehler zu beheben.
Der Befehl „zurück" bedeutet jedoch: „zurück zum einen Schritt zurückliegenden Prozess und Neubeginn des Prozesses". Deswegen muss der Benutzer, wenn das Ziel „Meguro Station" falsch erkannt wurde, dreimal „zurück" sagen, um vom vierten zum ersten Schritt zurückzukehren, damit die in 13 gezeigten Prozesse vom ersten bis vierten Schritt wiederholt werden. Dies ist ein erheblicher Nachteil, weil der Benutzer gezwungen ist, mühsame Vorgänge durchzuführen. Entsprechend muss der Benutzer, wenn „Bahnhofsname" falsch erkannt wird, zweimal „zurück" aussprechen, um vom vierten zum zweiten Schritt zurückzukehren, damit die in 13 gezeigten Prozesse vom zweiten bis vierten Schritt wiederholt werden, wodurch der Benutzer gezwungen ist, mühsame Vorgänge durchzuführen, was unerwünscht ist.
Somit reagiert das herkömmliche Navigationssystem auf Erkennungsfehler, indem die Funktion eines Überschreibens (Ersetzens) der vorherigen Spracheingabeinformation durch neue Spracheingabeinformation ersetzt wird, wenn „zurück" ausgesprochen wird. Diese Funktion beläuft sich jedoch einfach nur auf die Wiederholung der Spracherkennung und stellt keine Funktionen bereit, anhand derer der Benutzer eine Korrektur durch einfache Vorgänge befehlen kann. Entsprechend besteht der Nachteil, dass Benutzer gezwungen werden, mühsame Vorgänge durchzuführen.
Ein Beispiel eines bekannten Mensch-Maschine-Systems ist in der Patentschrift WO-A-99/01829 offenbart.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung wird bereitgestellt, um den Problemen des herkömmlichen Stands der Technik beizukommen. Eine Aufgabe der vorliegenden Erfindung besteht darin, ein wie in den beigefügten Ansprüchen beanspruchtes Mensch-Maschine-System bereitzustellen, das mit einer Spracherkennungsvorrichtung ausgestattet ist, die es Benutzern ermöglicht, einfache herkömmliche Vorgänge (z.B. Korrektur, usw.) auszuführen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Diese und weitere Aufgaben und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung mit Bezug auf die beigefügten Zeichnungen deutlich:
1 ist ein Blockschema, das eine Konfiguration einer Spracherkennungsvorrichtung nach der vorliegenden Erfindung zeigt;
2 ist eine erläuternde Abbildung, die einen hierarchischen Aufbau von Erkennungswörterbüchern zeigt;
3 ist eine erläuternde Abbildung, die einen Dateiaufbau in einem Erkennungsergebnisspeicherbereich zeigt;
die 4A bis 4E sind erläuternde Abbildungen, die Strukturen von Steuerwörtern zeigen;
5 ist eine erläuternde Abbildung, die Beispiele für Steuerwörterarten zeigen;
6 ist ein Ablaufdiagramm zur Erläuterung eines Beispiels für den Grundfunktionsablauf der vorliegenden Spracherkennungsvorrichtung;
7 ist ein Ablaufdiagramm zur Erläuterung eines Beispiels für den Grundfunktionsablauf zur Korrekturverarbeitung der vorliegenden Spracherkennungsvorrichtung;
8 ist ein Ablaufdiagramm zur Erläuterung eines Beispiels für einen spezielleren Funktionsablauf der vorliegenden Spracherkennungsvorrichtung;
9 ist ein Ablaufdiagramm zur weiteren Erläuterung eines Beispiels für einen spezielleren Funktionsablauf der vorliegenden Spracherkennungsvorrichtung;
10 ist ein Ablaufdiagramm zur weiteren Erläuterung eines Beispiels für einen spezielleren Funktionsablauf der vorliegenden Spracherkennungsvorrichtung;
11 ist ein Ablaufdiagramm zur weiteren Erläuterung eines Beispiels für einen spezielleren Funktionsablauf der vorliegenden Spracherkennungsvorrichtung;
die 12A und 12B sind Ablaufdiagramme zur weiteren Erläuterung eines Beispiels für einen spezielleren Funktionsablauf der vorliegenden Spracherkennungsvorrichtung; und
13 ist ein Ablaufdiagramm zur Erläuterung des Funktionsablaufs einer herkömmlichen Spracherkennungsvorrichtung.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Bevorzugte Ausführungsformen der vorliegenden Erfindung werden nun im Einzelnen mit Bezug auf die Zeichnungen beschrieben. Als bevorzugte Ausführungsform wird auch ein Kraftfahrzeugnavigationssystems beschrieben, das Spracherkennungsfunktionalität nutzt.
1 zeigt ein Blockschema, das eine Konfiguration eines Spracherkennungsvorrichtungsaufbaus nach einer bevorzugten Ausführungsform der vorliegenden Erfindung zeigt, der in einem Kraftfahrzeugnavigationssystem installiert ist. Im Einzelneren zeigt das Blockschema einen Teil einer Spracherkennungsvorrichtung, die in dem Kraftfahrzeugnavigationssystem als Mensch-Maschine-Schnittstellenvorrichtung eingebaut ist.
Wie in 1 gezeigt ist, besteht diese Spracherkennungsvorrichtung aus einem Spracheingabeteil 1, das mit einem Mikrofon ausgestattet ist, einem Signalverarbeitungsteil 2, einem Speicherteil 3, einem Steuerteil 4, das mit einem Mikroprozessor (MPU) ausgestattet ist, einem Bedienteil 5 wie einer Tastatur, usw., einem Sprachausgabeteil 6, das mit einem Sprachsynthesizer in Form einer integrierten Schaltung ausgestattet ist, und einem Anzeigeteil 7, das aus einer Flüssigkristallanzeige, usw. besteht.
Hier können das Bedienteil 5, das Sprachausgabeteil 6 und das Anzeigeteil 7 gemeinsam Bestandteile des Navigationssystems sein, oder können über eine separate externe Vorrichtung oder über separate externe Vorrichtungen an das System angeschlossen sein.
Das Speicherteil 3 besteht aus einem Analysedatenspeicherteil 10 und einem Erkennungswortspeicherteil 11. Das Signalverarbeitungsteil 2 besteht aus einem digitalen Signalprozessor (DSP) usw., und ist mit einem Sprachanalyseteil 8 und einem Ähnlichkeitsberechnungsteil 9 ausgestattet, die in Übereinstimmung mit Steuersignalen aus dem Steuerteil 4 arbeiten.
Das Spracheingabeteil 1 fängt die Sprache (Stimme) eines Benutzers auf, setzt die Sprache in digitale Sprachdaten Din um, und liefert die Daten an das Sprachanalyseteil 8.
Das Sprachanalyseteil 8 extrahiert die Kennzeichen der vom Benutzer ausgesprochenen Sprache auf Grundlage der Sprachdaten Din, und gibt Kennzeichenparameterdaten Da aus, bei denen es sich um das Ergebnis der Extraktion handelt (im Nachstehenden als „Analysedaten" bezeichnet).
Das Analysedatenspeicherteil 10 besteht aus einem überschreibbaren Speicher (RAM) und speichert die Analysedaten Da, die vom Sprachanalyseteil 8 ausgegeben werden. Auch liefert das Analysedatenspeicherteil 10 die gespeicherten Analysedaten Da' in Übereinstimmung mit Steuersignalen aus dem Steuerteil 4 an das Ähnlichkeitsberechnungsteil 9.
Hier übernimmt die Spracherkennungsvorrichtung ein Dialogschema, bei dem es eine Kategorie von Wörtern angibt, die der Benutzer aussprechen soll, und dieser sagt dann eines der Wörter aus der Kategorie. Das Analysedatenteil 10 speichert Analysedaten Da in Übereinstimmung mit der angegebenen Kategorie von Wörtern.
Das Erkennungswortspeicherteil 11 besteht aus einem Festwertspeicher (ROM) und speichert viele Referenzdaten (die nachstehend als „Erkennungsreferenzvokabulare" bezeichnet werden), die mit den Analysedaten Da, Da' verglichen werden sollen, wenn vom Benutzer ausgesprochene Wörter erkennungstechnisch bearbeitet werden. Diese Erkennungsreferenzvokabulare sind in mehreren Erkennungswörterbüchern klassifiziert gespeichert. Wie in 2 gezeigt ist, umfassen diese Erkennungswörterbücher hierarchisch ein Oberbegriffswörterbuch MJ, ein Ortsnamenswörterbuch MK und ein Institutionsnamenswörterbuch ML.
Auf der höchsten Ebene des Oberbegriffswörterbuchs MJ sind „Bahnhofsnamen", „Krankenhausnamen", „Vergnügungsparknamen", usw. als Erkennungsreferenzvokabulare zugeteilt. In einem Ortsnamenswörterbuch MK, das jeweils von einem Oberbegriffswörterbuch MJ abhängt, sind die Ortsbezeichnungen wie „Hokkaido", „Tokio", usw. als Erkennungsreferenzvokabulare zugeteilt. In einem Institutionsnamenswörterbuch ML, das jeweils von einem Ortsnamenswörterbuch MK abhängt, sind die speziellen Institutionsbezeichnungen wie „Meguro Station", „Tokio Station", usw. als Erkennungsreferenzvokabulare zugeteilt.
So sind im Vokabular „Bahnhofsname" im Oberbegriffswörterbuch MJ national anerkannte Ortsnamen wie „Hokkaido", „Tokio" in einer Baumstruktur als Erkennungsreferenzvokabulare enthalten, und in jedem der Vokabulare der Ortsnamen sind die Institutionsnamen von Bahnhöfen in einer Baumstruktur enthalten, die in dem entsprechenden Ort liegen. Auch sind im Vokabular „Krankenhausnamen" im Oberbegriffswörterbuch MJ national anerkannte Ortsnamen enthalten, und unter jedem der Ortsnamen sind die Institutionsnamen vieler Krankenhäuser enthalten, die in dem Ort liegen. Entsprechend sind im Vokabular „Vergnügungsparknamen" national anerkannte Ortsnamen und die Institutionsnamen vieler Vergnügungsparks in dem Ort enthalten.
Darüber hinaus liegt bei dieser Spracherkennungsvorrichtung eine Vielzahl an Befehlsinformation (als „Befehlsvokabulare" bezeichnet) bereit. Die Befehlsinformation wird zum Ausführen des entsprechenden Befehls, wie etwa Korrektur, verwendet, der durch den Benutzer über Spracheingabe oder über das Bedienteil 5 eingegeben wird. Diese Befehlsvokabulare W sind auch im Erkennungswortspeicherteil 11 als Befehlswörterbuch MC gespeichert.
Hier werden die Erkennungsreferenzvokabulare (Vokabulare, bei denen es sich um zu erkennende Objekte handelt) wie „Bahnhofsname", „Krankenhausname", „Vergnügungsparkname", usw., die zur Kategorie des Oberbegriffswörterbuchs MJ gehören, „Oberbegrifferkennungsreferenzvokabulare" genannt. Die Erkennungsreferenzvokabulare wie „Hokkaido", „Tokio", usw., die zur Kategorie des Ortsnamenswörterbuchs MK gehören, werden „Ortsnamenserkennungsreferenzvokabulare" genannt. Die Erkennungsreferenzvokabulare, die zum Institutionsnamenswörterbuch ML gehören, werden „Institutionsnamenserkennungsreferenzvokabulare" genannt. Andererseits wird der Vorgang, durch den ein Benutzer dieser Spracherkennungsvorrichtung Befehle erteilt, indem er die Befehlsvokabulare W verwendet, „Befehlsvorgang" genannt.
Das Ähnlichkeitsberechnungsteil 9 vergleicht die Analysedaten Da, die vom Sprachanalyseteil 8 geliefert werden, mit Erkennungsreferenzvokabularen Db, die in den Wörterbüchern MJ, MK, ML und MC enthalten sind, und wählt ein Erkennungsreferenzvokabular, das den Analysedaten Da am ähnlichsten ist, und Vokabulare aus, deren Ähnlichkeiten größer sind als ein vorbestimmter Ähnlichkeitsbestimmungsstandard. Dann gibt das Ähnlichkeitsberechnungsteil 9 die ausgewählten Erkennungsreferenzvokabulare Db als Erkennungsergebnisvokabulare Dc an das Steuerteil 4 aus. Das Ähnlichkeitsberechnungsteil 9 verarbeitet auch die Analysedaten Da' auf ähnliche Weise, die vom Analysedatenspeicherteil 10 geliefert werden, und gibt die den Analysedaten Da' entsprechenden Erkennungsergebnisvokabulare Dc an das Steuerteil 4 aus.
Über die vorstehenden Prozeduren werden die Erkennungsergebnisse der Sprache (Stimmen) wie „Bahnhofsname", „Tokio", „Meguro Station", usw., und ein Wort, das für den Befehlsvorgang ausgesprochen wird, wie etwa „Korrektur", dem Steuerteil 4 als Erkennungsergebnisvokabulare Dc geliefert.
Hier werden die Wörterbücher MJ, MK, ML und MC, auf die beim Vergleich mit den Analysedaten Da, Da' zurückgegriffen wird, selektiv in Übereinstimmung mit einem Steuersignal C angewählt, das vom Steuerteil 4 geliefert wird. Wenn zum Beispiel ein Benutzer aufgefordert wird, ein Vokabular auszusprechen, das zur Oberbegriffskategorie gehört, wird das Oberbegriffswörterbuch MJ durch das Steuersignal C gewählt. Nachdem der Benutzer ein Vokabular in Übereinstimmung mit dem Befehl ausgesprochen hat, vergleicht das Ähnlichkeitsberechnungsteil 9 die dadurch erhaltenen Analysedaten Da (oder Da') mit Erkennungsreferenzvokabularen im Oberbegriffswörterbuch MJ. Auf diese Weise entspricht der Inhalt des Worts, das auszusprechen der Benutzer angewiesen wird, einer Auswahl der Wörterbücher MJ, MK, ML und MC. Darüber hinaus erfolgt das Auslesen von Analysedaten Da' aus dem Analysedatenspeicher 10 in Übereinstimmung mit der Auswahl der Wörterbücher MJ, MK, ML und MC.
Das Steuerteil 4 gibt durch das Ausführen einer vorbestimmten Systemsoftware die Steuersignale zum Steuern des gesamten Funktionsablaufs dieser Spracherkennungsvorrichtung aus, und überträgt die Ergebnisse der Spracherkennung an ein zentrales Steuerteil (in den Figuren nicht gezeigt) im Navigationssystem als Steuerausgänge.
Darüber hinaus nimmt das Steuerteil 4 Befehle von einem Benutzer über das Bedienteil 5 entgegen und stellt Daten, die dem Benutzer präsentiert werden sollen, und Spracherkennungsergebnisse über ein Sprachausgabeteil 6 oder ein Anzeigeteil 7 bereit, wodurch für Audio- und Videokommunikation gesorgt wird.
Im Steuerteil 4 ist auch ein Erkennungsergebnisspeicherbereich MR installiert, um die Erkennungsergebnisvokabulare Dc zu speichern, die vom Ähnlichkeitsberechnungsteil 9 geliefert werden. Wie in 3 gezeigt ist, enthält der Erkennungsergebnisspeicherbereich MR eine Oberbegriffsdatei FJ, eine Ortsnamensdatei FK und eine Institutionsnamensdatei FL, und die Erkennungsergebnisvokabulare Dc werden klassifiziert in diesen Dateien FJ. FK und FL gespeichert.
Wie vorstehend erläutert, übernimmt diese Spracherkennungsvorrichtung ein Dialogschema, bei dem einem Benutzer eine Vokabularkategorie bereitgestellt wird, und der Benutzer ein in der bestimmten Vokabularkategorie enthaltenes Vokabular ausspricht. Wenn somit der Benutzer aufgefordert wird „Bitte Oberbegriff wählen", werden die entsprechenden Erkennungsergebnisvokabulare Dc in der Oberbegriffsdatei FJ gespeichert. Wenn der Benutzer aufgefordert wird „Bitte Ortsnamen wählen" oder „Bitte Bezirksnamen wählen", usw., werden die entsprechenden Erkennungsergebnisvokabulare Dc in der Ortsnamensdatei FK gespeichert. Und wenn der Benutzer aufgefordert wird „Bitte Namen der Institution wählen", werden die entsprechenden Erkennungsergebnisvokabulare Dc in der Institutionsnamensdatei FL gespeichert.
Darüber hinaus werden mehrere Erkennungsergebnisvokabulare Dc vom Ähnlichkeitsberechnungsteil 9 in der Reihenfolge der größeren Ähnlichkeit an das Steuerteil 4 übertragen. So werden, wie in 3 gezeigt, mehrere Erkennungsergebnisvokabulare Dc11, Dc12, usw., Dc21; Dc22; usw., und Dc31, Dc32, usw. jeweils geordnet in der Reihenfolge größerer Ähnlichkeit in den Dateien FJ, FK und FL gespeichert.
Dann analysiert das Steuerteil 4 als Grundoperation die Erkennungsergebnisvokabulare Dc11, Dc21 und Dc31 mit den größten Ähnlichkeiten in den jeweiligen Dateien FJ, FK und FL, um das durch den Benutzer bezeichnete Ziel (Institutionsnamen), usw. zu bestimmen. Wenn jedoch ein Befehlsvorgang eingegeben wird, um das nächste in Frage kommende Ziel auszuwählen, bestimmt das Steuerteil 4 das Ziel (Institutionsnamen), usw., das durch den Benutzer angegeben wurde, auf Grundlage der Erkennungsergebnisvokabulare mit den nächstgrößten Ähnlichkeiten.
Darüber hinaus werden mehrere Steuerwörter WW vorab im Steuerteil 4 hinterlegt und abgespeichert. Diese Steuerwörter WW werden zur Bestimmung des Inhalts (der Bedeutung) eines Befehls bereitgestellt, der durch einen Befehlsvorgang angewiesen wurde, um im Ansprechen darauf Schnellvorgänge durchzuführen. Die Steuerwörter WW besitzen zwei Grundformen.
Wie in 4A schematisch gezeigt ist, baut eine erste Grundform der Steuerwörter WW auf einem Paar aus einem gesteuerten Objektwort X und einem Steuerbefehlswort Y auf. Das Steuerbefehlswort Y gibt einen Operationsgegenstand an, der in Übereinstimmung mit dem Benutzerbefehl verarbeitet werden soll, und das gesteuerte Objektwort X gibt einen Objektgegenstand an, der in Übereinstimmung mit dem Steuerbefehlswort Y verarbeitet werden soll. Wenn beispielsweise diese Spracherkennungsvorrichtung das Spracherkennungsergebnis als „Es ist ein Bahnhofsname in Tokio, nicht wahr?" ausgibt, und ein Benutzer als Antwort sagt „Bahnhofsname, Korrektur", läuft ein Prozess zur Korrektur des Bahnhofsnamens an, und zwar auf Grundlage der Steuerwörter WW, die aus (X + Y) = (Bahnhofsname + Korrektur) bestehen. Falls das Ergebnis einer neuen Spracheingabe „Krankenhausname" lautet, wird das korrigierte Ergebnis erneut in Form einer synthetischen Stimme „Es ist ein Krankenhausname in Tokio, nicht wahr?" oder dergleichen ausgegeben.
Das heißt, das gesteuerte Objektwort X, das ein zu überprüfendes Objekt angibt, hat denselben Inhalt wie Erkennungsreferenzvokabulare, usw., die ein jeweiliges Attribut (Kategorie) für den Oberbegriff, die Ortsnamen und Institutionsnamen haben, und die Steuerwörter WW werden aufgebaut, indem ein Steuerbefehlswort Y vorab an diese Erkennungsreferenzvokabulare oder dergleichen angehängt wird.
Beim vorstehenden Beispiel handelt es sich um den Fall, bei dem das Steuerbefehlswort Y „Korrektur" lautet. Verschiedene Arten von wie in 5 gezeigten Steuerwörtern werden vorab vorbereitet. In 5 gibt die linke Spalte Formen der Steuerwörter an, die rechte Spalte gibt die Bedeutung des jeweiligen Befehlsworts an, und die mittlere Spalte gibt die Indikatoren des jeweiligen Steuerbefehlsworts Y am. Beim Teil „~" handelt es sich um ein gesteuertes Objektwort X, und der darauf folgende Satz ist ein Steuerbefehlswort Y.
Bei einer zweiten, wie in 4B gezeigten Grundform von Steuerwörtern WW werden nur die Steuerbefehlswörter Y vorab hinterlegt und abgespeichert, und danach wird ein angewiesenes Steuerbefehlswort Y an das Erkennungsergebnisvokabular Dc angehängt, das durch einen Befehlsvorgang eines Benutzers bestimmt wurde, um Steuerwörter WW aufzubauen. Mit anderen Worten ist bei den in 4A gezeigten Steuerwörtern WW das gesteuerte Objektwort X vorbestimmt, wohingegen die in 4B gezeigten Steuerwörter WW eine Flexibilität beim Teil der gesteuerten Objektwörter X aufweisen.
Wenn die Spracherkennungsvorrichtung „Es ist der Bahnhofsname in Tokio, nicht wahr?" als Ergebnis der Spracherkennung von „Bahnhofsname" als Oberbegriff und „Tokio" als Ortsname in dieser Reihenfolge ausgibt, und ein Benutzer als Antwort darauf „Korrektur" sagt, interpretiert die Spracherkennungsvorrichtung „Korrektur" als Befehl, um „Tokio" als Ortsnamen zu korrigieren, der zuletzt (unmittelbar vorher) erkannt wurde.
Beispielsweise sei angenommen, dass das letzte Ergebnis der Erkennung ein Erkennungsergebnisvokabular Dc21 in der Ortsnamensdatei FK ist und „Tokio" auf Grundlage des Erkennungsergebnisvokabulars Dc21 ausgegeben wird. Wenn die Korrektur angewiesen wird, wird das Erkennungsergebnisvokabular Dc21, bei dem es sich um das letzte Erkennungsergebnis handelt, als Erkennungsergebnisvokabular Dc von 4B eingesetzt. Indem ein in 5 gezeigtes Steuerbefehlswort Y „Korrektur (CW)" diesem Erkennungsergebnisvokabular Dc21 hinzugefügt wird, werden die Steuerwörter WW von 4B generiert. Auf Grundlage der Steuerwörter WW von (Dc21 + Y), beginnt ein Prozess zur Korrektur des Ortsnamens. Wenn dann das Ergebnis einer neuen Spracheingabe zu „Kanagawa-Bezirk" wird, wird das Ergebnis der Korrektur als synthetische Stimme „Es ist ein Bahnhofsname im Kanagawa-Bezirk, nicht wahr?" oder dergleichen ausgegeben.
Dementsprechend sorgt die zweite Grundform der Steuerwörter WW für eine schnelle Antwort, wenn ein Benutzer das Ergebnis der Spracheingaben sofort korrigieren möchte. Wenn beispielsweise ein Benutzer die Zielangabe häufig ändern möchte, kann das endgültige Ziel, das am Ende bestimmt werden soll, prompt angewiesen werden, indem die Spracheingabe des Ziels, usw., und der Befehlsvorgang „Korrektur" abwechselnd wiederholt wird. Das heißt, „Korrektur" auszusprechen, was einem Steuerbefehlswort Y entspricht, führt zur Bestimmung des letzten Erkennungsreferenzvokabulars, wodurch eine einfache Korrektur mit höherer Benutzerfreundlichkeit ermöglicht wird.
Andererseits ist es mit der ersten Grundform der Steuerwörter WW möglich, eine angemessene Verarbeitung im Falle einer Korrektur nicht nur eines Erkennungsergebnisvokabulars, das zuletzt spracherkennungstechnisch behandelt wurde, sondern auch eines Erkennungsergebnisvokabulars durchzuführen, das vor dem zuletzt erkannten Vokabular spracherkennungstechnisch behandelt wurde.
Die 4C bis 4E zeigen konkrete Beispiele anderer Formen von Steuerwörtern WW. Diese Figuren zeigen, dass je nachdem, wie ein Benutzer Befehlsvorgänge einsetzt, Steuerwörter WW mit verschiedenen Längen und Kombinationen möglich sind. Entsprechend diesen entwickelten Formen sind eine Korrektur mehrerer Erkennungsergebnisvokabulare gleichzeitig (4D und 4E) und Befehle zum Durchführen einer tatsächlichen Korrektur nicht nur nach dem Korrekturbefehl, sondern auch nach dem Ablauf einiger Prozesse, usw. möglich (4C bis 4E).
Insbesondere wenn ein Benutzer mehrere Vokabulare und Befehlsvokabulare als durchgehende Sprache eingibt, ist es möglich, angemessene Prozesse, welche die Intention des Benutzers reflektieren, auf Grundlage dieser entwickelten Formen von Steuerwörtern WW durchzuführen.
Dementsprechend nimmt diese Spracherkennungsvorrichtung Benutzeranweisungen und -befehle über Steuerwörter WW entgegen, bei denen es sich um Kombinationen feststehender oder flexibler gesteuerter Objektwörter X und Steuerbefehlswörter Y handelt, wodurch ein überlegenerer Dialogbetrieb bereitgestellt wird.
Als Nächstes werden Beispiele für den Funktionsablauf dieser Spracherkennungsvorrichtung mit einem solchen Aufbau mit Bezug auf die in den 6 bis 9 gezeigten Ablaufdiagramme erläutert. Hier wird als repräsentatives Beispiel der Funktionsablauf für den Fall erklärt, bei dem ein Benutzer das Vokabular zu korrigieren wünscht, das bereits sprachlich eingegeben wurde, d.h. den Fall, bei dem die in 5 gezeigten Befehle „~, Korrektur", „Korrektur", „~, nächste in Frage kommende Angabe" und „nächste in Frage kommende Angabe" abgearbeitet werden.
6 zeigt einen zugrundeliegenden Funktionsablauf eines Spracherkennungsprozesses gemäß der vorliegenden Spracherkennungsvorrichtung. In der Figur fordert die Spracherkennungsvorrichtung einen Benutzer auf, ein Institutionsnamens-, ein Oberbegriffs- und ein Ortsnamensvokabular in dieser Reihenfolge auszusprechen, und grenzt dann die Erkennungsreferenzvokabulare im Erkennungswortspeicherteil 11, auf die zurückgegriffen werden soll, auf Grundlage der Vokabulare des Oberbegriffs und des Ortsnamens ein. Dann werden Analysedaten Da', die im Analysedatenspeicherteil 10 gespeichert wurden, mit den eingegrenzten Erkennungsreferenzvokabularen Db verglichen, um das Vokabular des vom Benutzer ausgesprochenen Institutionsnamens auszumachen. Dies wird „Direktsprachverfahren" genannt und ermöglicht Dialogvorgänge, die sich den gewollten kennzeichnenden Angaben des Benutzers anpassen.
Wenn hier das Oberbegriffsvokabular spracherkennungstechnisch bearbeitet und das Institutionsnamensvokabular aufgrund von dessen Erkennungsergebnis ausgemacht werden kann, muss der Benutzer das Vokabular für den Ortsnamen nicht bereitstellen. Dementsprechend entfällt in diesem Fall die Aufforderung nach einem Ortsnamensvokabular.
Mit Bezug auf 6 fordert diese Spracherkennungsvorrichtung zuerst einen Benutzer auf, ein Vokabular eines Institutionsnamens sprachlich einzugeben. Wenn der Benutzer ein Institutionsnamensvokabular eingibt, bei dem es sich um ein gewünschtes Ziel handelt, werden im Ansprechen darauf Analysedaten Da im Analysedatenspeicherteil 10 hinterlegt (abgespeichert).
Als Nächstes fordert die Spracherkennungsvorrichtung den Benutzer auf, ein Vokabular sprachlich einzugeben, das zur Oberbegriffskategorie gehört, bei dem es sich um einen Begriff höherer Ebene handelt. Wenn der Benutzer ein Vokabular sprachlich eingibt, das zur Oberbegriffskategorie gehört (beispielsweise ein Vokabular „Bahnhofsname" oder dergleichen), werden im Ansprechen darauf Analysedaten Da der Spracheingabe generiert und mit Erkennungsreferenzvokabularen Db im Oberbegriffswörterbuch MJ verglichen. Dann werden die Erkennungsergebnisvokabulare Dc, bei denen es sich um das Ergebnis des Vergleichs handelt, in der entsprechenden Datei FJ im Erkennungsergebnisspeicherteil MR gespeichert. Wenn an diesem Punkt alle Bedingungen zur Spracherkennung der im Analysedatenspeicherteil 10 gespeicherten Analysedaten Da' (Analysedaten des vom Benutzer ausgesprochenen Namens der Institution) erfüllt werden, werden die Analysedaten Da' mit Erkennungsreferenzvokabularen Db im entsprechenden Institutionsnamenswörterbuch ML verglichen, und Erkennungsergebnisvokabulare Dc, bei denen es sich um das Ergebnis des Vergleichs handelt, werden in der Institutionsnamensdatei FL gespeichert.
Dann wird dem Benutzer ein Erkennungsergebnisvokabular Dc für den Namen der Institution, bei dem es sich um das Ergebnis der Erkennung handelt, zur Bestätigung dessen präsentiert, ob Fehler in der Erkennung auftauchen, usw. Wenn anschließend an die Bestätigung ein Befehlsvorgang zur Suche eines Fahrtwegs zum Ziel ausgelöst wird, wird ein Fahrtweg zum Ziel auf Grundlage der entsprechenden Steuerwörter WW gesucht und der gesuchte Fahrtweg angezeigt.
Falls hier der Institutionsname als Ziel nicht ausgemacht (eingegrenzt) werden kann, indem einmalig ein Vokabular mit dem Begriff der höheren Ebene eingegeben wird, erfolgt eine Aufforderung, einen Ortsnamen sprachlich einzugeben, bei dem es sich um einen Begriff mittlerer Ebene handelt, und es wird darum gebeten, ein Vokabular auszusprechen, das zur Ortsnamenskategorie gehört (beispielsweise ein Vokabular „Tokio"). Dann werden Prozesse wiederholt, die ähnlich denjenigen im Falle des vorstehenden Oberbegriffs sind.
7 zeigt einen grundlegenden Funktionsablauf, bei dem diese Spracherkennungsvorrichtung ein Vokabular spracherkennungstechnisch bearbeitet, das sprachlich eingegeben wird, und ein Befehlsvorgang, wie etwa Korrektur, durch einen Benutzer als Antwort auf die Ausgabe des Erkennungsergebnisses gefordert wird.
Zuerst wird der Benutzer gefragt, ob ein Befehlsvorgang wie etwa Korrektur durchgeführt werden soll. Wird als Antwort ein Befehlsvorgang wie etwa Korrektur über Spracheingabe oder das Bedienteil 5 angefordert, wird der Inhalt des Befehls erkannt. Auf Grundlage der entsprechenden Steuerwörter WW erfolgt ein Prozess zur Korrektur beispielsweise des zu korrigierenden Objekts. Der in 7 gezeigte Prozess kann bei jedem der Schritte des in 6 gezeigten Spracherkennungsprozesses beliebig und jederzeit durchgeführt werden.
Als Nächstes werden konkretere Beispiele des Funktionsablaufs mit Bezug auf die 8 und 9 erläutert. Wenn ein Benutzer einen Befehlsvorgang durchführt, um über Spracheingabe oder das Bedienteil 5 eine Spracherkennung anlaufen zu lassen, wird der Prozess bei den Schritten S100 und danach unter der Steuerung des Steuerteils 4 ausgelöst.
Beim Schritt S100 gibt das Sprachausgabeteil 6 eine synthetische Stimme „Bitte Namen eingeben" in Übereinstimmung mit Befehlen aus dem Steuerteil 4 aus, um einen Benutzer aufzufordern (zu bitten), sprachlich den Namen eines gewünschten Ziels (Institutionsnamen) einzugeben.
Wenn der Benutzer als Antwort „Meguro Station" als Institutionsname sagt (Schritt S102), wird die Aussprache von „Meguro Station" erfasst, und das Sprachanalyseteil 8 analysiert die Sprache, um Analysedaten Da der Aussprache von „Meguro Station" zu generieren (Schritt S104).
Als Nächstes speichert das Analysedatenspeicherteil 10 die Analysedaten Da des Institutionsnamens „Meguro Station" (Schritt S106). Weil nämlich eine große Menge an Erkennungsreferenzvokabularen dem Institutionsnamen entspricht, werden die Analysedaten Da des Institutionsnamens so lange im Analysedatenspeicherteil 10 gespeichert, bis der Vergleichsbereich im Erkennungswörterbuch durch Abschließen eines Eingrenzungsvorgangs eingegrenzt ist, was später noch beschrieben wird.
Als Nächstes wird beim Schritt S108 ein Oberbegriffswörterbuch MJ im Erkennungswortspeicherteil 11 ausgewählt (festgelegt), um das System in einen Zustand zu versetzen, in dem sprachliche Äußerungen eingegeben werden können, die sich auf einen Oberbegriff beziehen.
Als Nächstes beginnt beim Schritt S110 das Ähnlichkeitsberechnungsteil 9 mit der Erkennung der eingegebenen sprachlichen Äußerungen auf Grundlage von Erkennungsreferenzvokabularen Db im Oberbegriffswörterbuch MJ. Das Sprachausgabeteil 6 gibt einen synthetischen Hörschall „Bitte Oberbegriff eingeben" aus, um den Benutzer aufzufordern, ein Vokabular auszusprechen, das zur Oberbegriffskategorie gehört.
Wenn der Benutzer als Antwort ein Vokabular ausspricht, das zur Oberbegriffskategorie gehört (zum Beispiel „Bahnhofsname"), wird die sprachliche Äußerung „Bahnhofsname" erfasst, und das Sprachanalyseteil 8 extrahiert die Kennzeichen der Sprache, um Analysedaten Da der sprachlichen Äußerung „Bahnhofsname" zu generieren. Die Analysedaten Da werden an das Ähnlichkeitsberechnungsteil 9 geschickt (Schritt S114). Die Analysedaten Da werden auch im Analysedatenspeicherteil 10 gespeichert.
Als Nächstes vergleicht beim Schritt S116 das Ähnlichkeitsberechnungsteil 9 die Analysedaten Da der sprachlichen Äußerung „Bahnhofsname" mit Erkennungsreferenzvokabularen Db im Oberbegriffswörterbuch MJ, um ein oder mehrere Erkennungsreferenzvokabular/e auszuwählen, dessen bzw. deren Ähnlichkeiten größer sind als ein Ähnlichkeitsbestimmungsstandard. Dann werden die ausgewählten Erkennungsreferenzvokabulare in der Reihenfolge größerer Ähnlichkeit sortiert, als Erkennungsergebnisvokabulare Dc an das Steuerteil 4 geschickt und in der in 3 gezeigten Oberbegriffsdatei FJ gespeichert.
Dann wird beim Schritt S118 von den in der Oberbegriffsdatei FJ gespeicherten Erkennungsergebnisvokabularen Dc das Vokabular mit der größten Ähnlichkeit (entspricht Dc11 in 3) an das Sprachausgabeteil 6 und Anzeigeteil 7 geschickt, um das Erkennungsergebnis in Form einer synthetischen Stimme und Zeichenanzeige, usw. zu präsentieren. Handelt es sich bei dem Erkennungsergebnisvokabular Dc11 um „Bahnhofsname", wird dem Benutzer ein synthetischer Hörschall „Es ist ein Bahnhofsname, nicht wahr?" oder dergleichen präsentiert.
Wenn der Benutzer dann einen Befehlsvorgang „Bahnhofsname, Korrektur" ausführt, indem er ihn als Antwort auf die Präsentation ausspricht, wird der Korrekturbefehl beim Schritt S120 als „JA" erkannt, und der Ablauf geht zum Schritt S122 über.
Weil hier beim Schritt S120 der Befehlsvorgang „Bahnhofsname, Korrektur" durchgeführt wird, wird ein Korrekturschema auf Grundlage der ersten Grundform von in 4A gezeigten Steuerwörtern WW bestimmt. Mit anderen Worten wird durch die Untersuchung der Steuerwörter WW mit einem Erkennungsergebnisvokabular von „Bahnhofsname" als gesteuertem Objektwort X und „Korrektur" als Steuerbefehlswort Y bestimmt, dass „Bahnhofsname" durch ein anderes Erkennungsreferenzvokabular auf derselben Ebene (d.h. ein anderes Erkennungsreferenzvokabular, das zur selben Oberbegriffskategorie gehört) korrigiert (ersetzt) werden sollte.
Dann wird beim Schritt S122 dem Erkennungswortspeicherteil 11 auf Grundlage der Steuerwörter WW ein Steuersignal C geliefert, um das Oberbegriffswörterbuch MJ einzusetzen. Jedoch wird entsprechend dem gesteuerten Objektwort X „Bahnhofsname" das Erkennungsreferenzvokabular von „Bahnhofsname" im Oberbegriffswörterbuch MJ ausgeschlossen, und es werden die übrigen Erkennungsreferenzvokabulare zum Vergleich vorbereitet.
Als Nächstes werden die Prozesse der Schritte S110 bis S118 wiederholt. Dementsprechend wird beim Schritt S110 eine synthetische Stimme „Bitte Oberbegriff eingeben" ausgegeben, um eine Benutzereingabe anzufordern. Gibt der Benutzer beim Schritt S112 eine andere sprachliche Äußerung ein als „Bahnhof", wird die eingegebene Sprache bei den Schritten S114 und S116 analysiert und erkennungstechnisch verarbeitet, und dem Steuerteil 4 werden neu bestimmte Erkennungsergebnisvokabulare Dc bereitgestellt.
Dann korrigiert (ersetzt) beim Schritt S118 das Steuerteil 4 alte Erkennungsergebnisvokabulare Dc11, Dc12, usw., in der Oberbegriffsdatei FJ durch neue Erkennungsergebnisvokabulare Dc11, Dc12, usw. Wenn der Benutzer beispielsweise sprachlich „Krankenhausname" eingibt, werden Erkennungsergebnisvokabulare Dc, die den „Krankenhausnamen" ähnlich sind, in der Oberbegriffsdatei FJ gespeichert, und es wird der durch den Benutzer angegebene Korrekturprozess durchgeführt (Schritte S112 bis S118).
Wenn statt dessen beim Schritt S120 ein einfacher Korrekturvorgang „Korrektur" durchgeführt wird, wird ein Korrekturschema auf Grundlage der zweiten Grundform von wie in 4B gezeigten Steuerwörtern WW bestimmt. Mit anderen Worten wird auf Grundlage der Steuerwörter WW, die durch Hinzufügen des Steuerbefehlsworts Y „Korrektur" zum ähnlichsten Erkennungsreferenzvokabular Dc11 in der Oberbegriffsdatei FJ gebildet werden, bestimmt, dass „Bahnhofsname" durch ein anderes Erkennungsreferenzvokabular, das sich auf derselben Ebene befindet (d.h. ein anderes Erkennungsreferenzvokabular, das zur Oberbegriffskategorie gehört) korrigiert (ersetzt) werden sollte.
Somit werden durch das Durchführen der Schritte S110–S118 bis Schritt S122 die alten Erkennungsergebnisvokabulare Dc11, Dc12, usw., in der Oberbegriffsdatei FJ durch neue Erkennungsergebnisvokabulare Dc11, Dc12, usw. korrigiert (ersetzt).
Wenn hier beim Schritt S120 der Befehlsvorgang, der den Steuerwörtern WW der ersten oder zweiten Grundform entspricht, wiederholt wird, werden alle der mehreren gesteuerten Objektwörter X (oder Erkennungsergebnisvokabulare Dc), die Gegenstand der Korrekturbefehls waren, aus dem Oberbegriffswörterbuch MJ ausgeschlossen, und es wird eine Ahnlichkeitsbestimmung auf Grundlage der übrigen Erkennungsreferenzvokabulare Db durchgeführt, die im Oberbegriffswörterbuch MJ enthalten sind. Und zwar werden jedes Mal, wenn ein Korrekturbefehlsvorgang erfolgt, die auszuschließenden Erkennungsreferenzvokabulare erweitert, und der Bereich der zu vergleichenden Erkennungsreferenzvokabulare Db wird weiter eingegrenzt. Dementsprechend wird der Vergleichsbereich klein ausgelegt, und es wird eine schnelle Korrekturverarbeitung möglich.
Wenn darüber hinaus beim Schritt S120 ein Befehlvorgang „Bahnhofsname, nächste in Frage kommende Angabe", der beispielsweise den in 5 gezeigten Steuerwörtern WW (Steuerwörtern der ersten Grundform) von „~, nächste in Frage kommende Angabe" entspricht, durchgeführt wird, wird beim Schritt S118 das nächste in der Oberbegriffsdatei FJ gespeicherte Erkennungsergebnisvokabular Dc12 präsentiert. Wenn zum Beispiel das Erkennungsergebnisvokabular Dc12 „Krankenhausname" lautet, wird dem Benutzer „Es ist ein Krankenhausname, nicht wahr?" präsentiert.
Das heißt, im Unterschied zu den Fällen der Befehlsvorgänge „Bahnhofsname, Korrektur" und „Korrektur" wird über die Schritte S122 und S110 bis S116 keine eigentliche Korrekturverarbeitung durchgeführt, und das Erkennungsergebnisvokabular Dc12 wird beim Schritt 118 als das ähnlichste Erkennungsergebnisvokabular präsentiert.
Wenn der Benutzer als Antwort auf diese Präsentation wieder einen Befehlsvorgang „~, nächste in Frage kommende Angabe" ausführt, wird das Erkennungsergebnisvokabular Dc13 präsentiert, bei dem es sich um die nächste in Frage kommende Angabe in der Oberbegriffsdatei FJ handelt. Wenn ein Befehlsvorgang zur Abfrage der übernächsten in Frage kommenden Angabe durchgeführt wird, wird das Erkennungsergebnisvokabular Dc14 präsentiert, bei dem es sich um die übernächste in Frage kommende Angabe in der Oberbegriffsdatei FJ handelt. Somit kann der Benutzer den Befehlsvorgang zur Abfrage der nächsten in Frage kommenden Angabe so oft durchführen, wie Erkennungsergebnisvokabulare Dc in der Oberbegriffsdatei FJ vorhanden sind.
Indem der Benutzer einen solchen Befehlsvorgang zur Abfrage der nächsten in Frage kommenden Angabe durchführt, muss er nicht wirklich Oberbegriffsvokabulare sprachlich eingeben. Darüber hinaus ermöglicht und beschleunigt dies die Korrekturverarbeitung in der Spracherkennungsvorrichtung.
Wenn beim Schritt S210 ein Befehlsvorgang entsprechend den Steuerwörtern WW für „nächste in Frage kommende Angabe" (Steuerwörter der zweiten Grundform) erfolgt, werden auch Korrekturprozesse durchgeführt, die dem Fall „~, nächste in Frage kommende Angabe" entsprechen. Das heißt, wenn der Benutzer einfach nur „Nächste in Frage kommende Angabe" sagt, wird das Erkennungsergebnisvokabular Dc12, bei dem es sich um das nächste in Frage kommende, in der Oberbegriffsdatei FJ gespeicherte Vokabular handelt, zum gesteuerten Objektwort, und dieses Erkennungsergebnisvokabular Dc12 wird dann präsentiert. Wenn der Befehlsvorgang zur Abfrage der nächsten in Frage kommenden Angabe wieder durchgeführt wird, wird die übernächste in Frage kommende Angabe des Erkennungsergebnisvokabulars Dc13 zum gesteuerten Objektwort und dieses Erkennungsergebnisvokabular Dc13 wird präsentiert. Somit kann der Benutzer den Befehlsvorgang zur Abfrage der nächsten in Frage kommenden Angabe so oft durchführen, wie Erkennungsergebnisvokabulare Dc in der Oberbegriffsdatei FJ vorhanden sind.
Entsprechend diesem Befehlsvorgang, bei dem nur „nächste in Frage kommende Angabe" gesagt wird, braucht der Benutzer das Vokabular nicht auszusprechen, das dem gesteuerten Objektwort X entspricht. Somit ist im Vergleich zum Befehlsvorgang „~, nächste Korrektur" eine schnellere Korrektur möglich.
Auch kann der Benutzer bestimmen, welcher Befehlsvorgang verwendet werden soll. So verfügt die Spracherkennungsvorrichtung über eine hohe Flexibilität.
Wie vorstehend erläutert, kann der Benutzer durch die Befehlsvorgänge „~, Korrektur, „Korrektur", „~, nächste in Frage kommende Angabe" und „nächste in Frage kommende Angabe" mühelos Korrekturen durchführen, um einen gewünschten Oberbe griff endgültig festzulegen. Natürlich erübrigt es sich, zu erwähnen, dass sich diese Befehlsvorgänge auch gemischt, usw., durchführen lassen.
Wenn der Benutzer als Nächstes bestimmt, dass das Oberbegriffsvokabular als Antwort auf das Erkennungsergebnis, das bei Schritt S118 bestimmt wird, bestätigt wird, geht der Ablauf vom Schritt S120 zum Prozess des Schritts S124 über.
Beim Schritt S124 wird durch Untersuchen der Dateien FJ und FK bestimmt, ob Eingrenzungsbedingungen zur Identifikation des Institutionsnamens auf Grundlage der gespeicherten Erkennungsergebnisvokabulare erfüllt sind oder nicht. Sind die Eingrenzungsbedingungen noch nicht zufriedenstellend erfüllt, geht der Ablauf zu Schritt S126 über, um ein Ortsnamenswörterbuch MK zu bestimmen, und es werden die Prozesse ab Schritt S110 wiederholt.
Wenn zum Beispiel auch mit den bereits in der Oberbegriffsdatei FJ gespeicherten Erkennungsergebnisvokabularen Dc11, Dc12, usw., keine Eingrenzung erzielt werden kann, weil die Ortsnamensdatei FK das entsprechende Erkennungsergebnisvokabular nicht erhalten hat, wird im Schritt S124 bestimmt, dass die Eingrenzungsbedingungen noch nicht erfüllt wurden. Dann wird beim Schritt S126 das Ortsnamenswörterbuch MK bestimmt, und der Ablauf geht zum Prozess von Schritt S110 über.
Beim Wiederholen der Prozesse ab Schritt S110, wird beispielsweise ein synthetischer Hörschall „Bitte Bezirk eingeben" beim Schritt S110 ausgegeben, um den Benutzer aufzufordern, ein Vokabular auszusprechen, das zur Ortsnamenskategorie gehört.
Wenn der Benutzer als Antwort sprachlich einen Ortsnamen wie „Tokio", usw. eingibt (Schritt S112), werden durch den Prozess bei den Schritten S114 bis S118 ein oder mehrere Erkennungsergebnisvokabular/e Dc21, Dc22, usw., welche die größten Ähnlichkeiten haben, in der Ortsnamensdatei FK gespeichert.
Dann wird beim Schritt S118 auf Grundlage der in der Oberbegriffsdatei FJ und der Ortsnamensdatei FK gespeicherten Erkennungsergebnisvokabulare ein synthetischer Hörschall „Es ist ein Bahnhofsname in Tokio, nicht wahr?" präsentiert.
Wenn der Benutzer als Antwort einen Befehlsvorgang durch Aussprechen von „Tokio, Korrektur" durchführt (S120), wird das Erkennungsergebnisvokabular in der Ortsnamensdatei FK auf Grundlage der Steuerwörter WW „~, Korrektur" auf ähnliche Weise wie vorstehend korrigiert.
Hier wird der Korrekturprozess im Hinblick auf den Ortsnamen auf eine ähnliche Weise durchgeführt wie der vorstehend beschriebene Korrekturprozess für den Oberbegriff. Deshalb wird die ausführliche Erklärung hier weggelassen. Wenn der Benutzer beim Schritt S120 einfach nur „Korrektur" sagt, wird der Prozess zur Korrektur des Erkennungsergebnisvokabulars Dc21 durchgeführt, bei dem es sich um das letzte Erkennungsergebnis handelt.
Falls darüber hinaus der Benutzer „Tokio, nächste in Frage kommende Angabe" sagt, wird das Erkennungsergebnisvokabular Dc22 präsentiert, bei dem es sich um das nächste in Frage kommende Vokabular in der Ortsnamensdatei FK handelt. Und jedes Mal, wenn der Befehlsvorgang „~, nächste in Frage kommende Angabe" durchgeführt wird, wird immer die übernächste in Frage kommende Angabe präsentiert. Auf diese Weise braucht der Benutzer, wenn der Befehlsvorgang „~, nächste in Frage kommende Angabe" durchgeführt wird, das Vokabular zur Korrektur nicht auszusprechen, wodurch eine einfache Korrektur ermöglicht wird.
Auch wenn der Benutzer einfach nur „nächste in Frage kommende Angabe" sagt, wird der Korrekturprozess durchgeführt, indem das nächste in Frage kommende Erkennungsergebnisvokabular präsentiert wird. Dementsprechend braucht der Benutzer beim Befehlsvorgang „nächste in Frage kommende Angabe" das Vokabular zur Korrektur nicht auszusprechen, wodurch eine einfache Korrektur ermöglicht wird.
Erfolgt jedoch ein Befehlsvorgang, der eine Korrektur des Erkennungsergebnisvokabulars in der Oberbegriffsdatei FJ befiehlt, nachdem die Erkennungsergebnisvokabulare Dc, die sich auf den Oberbegriff und den Ortsnamen beziehen, in der Oberbegriffsdatei FJ bzw. der Ortsnamensdatei FK gespeichert wurden, wird der folgende Korrekturprozess durchgeführt.
Als Erstes werden als Antwort auf entweder den Befehlsvorgang „~, Korrektur" oder „~, nächste in Frage kommende Angabe" die Erkennungsergebnisvokabulare Dc11, Dc12, usw., in der Oberbegriffsdatei FJ korrigiert. Als Nächstes werden die Erkennungsreferenzvokabulare Db im Ortsnamenswörterbuch MJ, das sich unter dem Erkennungsergebnisvokabular Dc11 (Erkennungsergebnisvokabular nach der Korrektur) befindet, das die größte Ähnlichkeit mit der Oberbegriffsdatei FJ hat, ausgewählt und festgelegt. Indem dann die Analysedaten Da' des Ortsnamens, die vorab im Analysedatenspeicherteil 10 gespeichert wurden, mit den Erkennungsreferenzvokabularen Db verglichen werden, die ausgewählt und festgelegt wurden, werden neue Erkennungsergebnisvokabulare Dc erhalten und in der Ortsnamensdatei FK gespeichert.
Dementsprechend wird, wenn ein Befehlsvorgang zur Korrektur des Oberbegriffs durchgeführt wird, bei dem es sich um einen Begriff höherer Ebene handelt als der Ortsname, die Spracherkennung im Hinblick auf den Ortsnamen unter Verwendung der Analysedaten Da', die bereits gespeichert wurden, automatisch durchgeführt. Somit kann der Benutzer die Erkennungsergebnisvokabulare Dc21, Dc22, usw. in der Ortsnamensdatei FK korrigieren, ohne den Ortsnamen noch einmal auszusprechen.
Hier besteht sogar im Falle einer automatischen Korrektur der Erkennungsergebnisvokabulare in der Ortsnamensdatei FK eine Möglichkeit, dass Fehler in der Erkennung, usw. auftreten können. Die Spracherkennung wird jedoch auf Grundlage der Analysedaten Da' wiederholt, die erhalten wurden, als der Benutzer ein Vokabular aussprach, das zur Ortsnamenskategorie gehörte. Somit kann der vom Benutzer gewünschte Ortsname mit einer hohen Wahrscheinlichkeit spracherkannt werden.
Indem die Analysedaten Da', die sprachlich eingegeben wurden, effizient genutzt werden, ist es im Ergebnis möglich, eine sehr schnelle Korrekturverarbeitung durchzuführen, wie auch den Benutzern eine verbesserte Benutzerfreundlichkeit zu bieten.
Wenn die Erkennungsergebnisvokabulare Dc, welche die Eingrenzungsbedingungen erfüllen, auf diese Weise im Erkennungsergebnisspeicherbereich MR aufbereitet werden, wird die Bestimmung beim Schritt S124 zu „JA", und der Ablauf geht zu dem in 9 gezeigten Prozess des Schritts S127 über.
Schritt S127 bestimmt das Institutionsnamenswörterbuch ML, das den Erkennungsergebnisvokabularen Dc entspricht, welche die Eingrenzungsbedingungen erfüllen und in der Oberbegriffsdatei FJ und der Ortsnamensdatei FK gespeichert sind, die in 3 gezeigt sind. Wenn zum Beispiel die Erkennungsergebnisvokabulare Dc11 und Dc21, welche die Eingrenzungsbedingungen erfüllen, „Bahnhofsname" bzw. „Tokio" lauten, werden die möglichen Wörterbücher für den Institutionsnamen auf das Institutionsnamenswörterbuch ML der „Liste von Bahnhofsnamen" eingegrenzt, die sich, wie in 2 gezeigt, unter „Bahnhofsname in Tokio" befindet. Auch wenn der Befehlsvorgang „~, nächste in Frage kommende Angabe" durchgeführt wird, erfolgt ein Eingrenzungsvorgang auf Grundlage der Erkennungsergebnisvokabulare, die durch die entsprechende nächste in Frage kommende Angabe bestimmt werden.
Als Nächstes werden beim Schritt S128 die Analysedaten Da' des Institutionsnamens („Meguro Station" zum Beispiel), die bereits im Analysedatenspeicherteil 10 gespeichert wurden, in das Ähnlichkeitsberechnungsteil 9 eingegeben, und die Ähnlichkeiten zwischen den Analysedaten Da' und den Erkennungsreferenzvokabularen Db im Institutionsnamenswörterbuch ML der „Liste von Bahnhofsnamen" werden bestimmt. Dann werden die Erkennungsergebnisvokabulare Dc mit den größten Ähnlichkeiten in der Institutionsnamensdatei FL hinterlegt (gespeichert).
Als Nächstes wird beim Schritt S130 das ähnlichste Erkennungsergebnisvokabular in der Institutionsnamensdatei FL (Dc31 in 3) über das Sprachausgabeteil 6 ausgegeben und/oder am Anzeigeteil 7 angezeigt Wenn sich zum Beispiel herausstellt, dass es sich beim Erkennungsergebnisvokabular Dc31 um „Meguro Station" handelt, wird das endgültige Bestimmungsergebnis durch eine synthetische Stimme „Es ist Meguro Station, nicht wahr?" oder dergleichen präsentiert.
Dann geht der Ablauf zum Prozess beim Schritt S132 und den nachfolgenden Schritten über, wobei es sich um eine Bestätigungsroutine handelt, die den Benutzer auffordert, das endgültige Bestimmungsergebnis zu bestätigen.
Zuerst ertönt beim Schritt S132 eine synthetische Stimme „Bitte Befehl eingeben", um den Benutzer zu fragen, ob das endgültige Erkennungsergebnis weiter korrigiert werden sollte.
Wenn der Benutzer als Antwort bestimmt, dass eine Korrektur des Oberbegriffs oder Ortsnamens notwendig ist und entweder den Befehlsvorgang „~, Korrektur" oder „~, nächste in Frage kommende Angabe" durchführt, erfolgt eine Erkennung der Analysedaten Da, die der Spracheingabe entsprechen. Dann wird beim Schritt S134 bestimmt, dass der Befehlsvorgang zu Korrektur auf Grundlage der Steuerwörter WW durchgeführt wurde („JA"), und der Ablauf geht zum Schritt S136 über. Wenn hier ein Befehl wie „Korrektur", usw., über das Bedienteil 5 und nicht über Spracheingabe eingegeben wird, geht der Ablauf entsprechend zum Schritt S136 über.
Beim Schritt S136 wird ein Erkennungswörterbuch im Erkennungswortspeicherteil 11, das dem Korrekturbefehl entspricht, auf ähnliche Weise wie im Prozess des Schritts S122 (siehe 8) ausgewählt und festgelegt. Hier wird das Erkennungsreferenzvokabular, das korrigiert werden soll, im ausgewählten Erkennungswörterbuch ausgeschlossen. Dann wird der Prozess beim Schritt S110 und den nachfolgenden Schritten, wie in 8 gezeigt ist, wiederholt, um die Erkennungsergebnisvokabulare in der Oberbegriffsdatei FJ oder der Ortsnamensdatei FK auf neue Erkennungsergebnisvokabulare zu berichtigen.
Da die Korrekturverarbeitung beim Schritt S110 und den nachfolgenden Schritten vorstehend erläutert wurde, unterbleibt deren Erklärung an dieser Stelle.
Wenn der Befehlsvorgang zur Korrektur des Oberbegriffs oder Ortsnamens beim Schritt S134 nicht durchgeführt wird und ein Befehlsvorgang zur Korrektur von „Institutionsname" erfolgt, bestimmt Schritt S138, dass der Befehlsvorgang zur Korrektur von „Institutionsname" auf Grundlage der entsprechenden Steuerwörter WW durchgeführt wurde („JA"), und der Ablauf geht zum Schritt S142 über.
Ist hingegen keiner der Befehlsvorgänge für Oberbegriff, Ortsnamen und Institutionsnamen durchgeführt worden, und ein anderer Befehlsvorgang als Korrekturbefehl, beispielsweise „Routensuche", durchgeführt worden, bestimmt Schritt S138, dass es keine Korrektur gab (bestimmt „NEIN"), und der Ablauf geht zum Schritt S140 über.
Sobald der Ablauf zum Schritt S140 übergeht, beginnt der durch den Befehlsvorgang angewiesene Vorgang. Wenn der Befehlsvorgang „Routensuche" wie im Fall des vorstehenden Beispiels auf Grundlage der Steuerwörter WW durchgeführt wurde, die diesem „Befehl" entsprechen, wird das auf diese Weise bestätigte Erkennungsergebnisvokabular in der Datei FL extrahiert; es wird ein Fahrtweg zu dem Ziel gesucht, das dem Institutionsnamen des Erkennungsergebnisvokabulars Dc entspricht; und der gesuchte Fahrtweg wird über das Anzeigeteil 7 auf einer Karte angezeigt. Dann ist die Spracherkennungsverarbeitung beendet, und das System wartet auf eine Anweisung, um mit einer anderen Spracherkennung zu beginnen.
Erfolgt jedoch beim Schritt S138 ein Korrekturbefehlsvorgang für „Institutionsname", d.h. „~, Korrektur" oder „Korrektur", geht der Ablauf zu Schritt S142 über, und es ertönt ein synthetischer Hörschall „Bitte Institutionsnamen eingeben", um den Benutzer aufzufordern, ein neues Vokabular einzugeben, das zur Institutionsnamenskategorie gehört.
Wenn der Benutzer als Antwort einen neuen Institutionsnamen ausspricht (Schritt S144), werden die entsprechenden Analysedaten Da generiert (Schritt S146) und im Analysedatenspeicherteil 10 gespeichert (Schritt S148). Dann kehrt der Ablauf zum Prozess von Schritt S127 zurück.
Beim Schritt S127 erfolgt eine Eingrenzung auf Grundlage der Erkennungsergebnisvokabulare, die bestätigt und in der Oberbegriffsdatei FJ und der Ortsnamensdatei FK gespeichert wurden, um ein Institutionsnamenswörterbuch ML im Erkennungswortspeicherteil 11 festzulegen. Hier wird das Erkennungsreferenzvokabular, das zu korrigieren angewiesen wurde, beim Festlegen des Wörterbuchs ausgeschlossen.
Beim Schritt S128 werden dann die Analysedaten Da' des Institutionsnamens, die im Analysedatenspeicherteil 10 gespeichert wurden, mit Erkennungsreferenzvokabularen Db im Institutionsnamenswörterbuch ML verglichen, um die Ähnlichkeiten zu bestimmen, und die Erkennungsergebnisvokabulare Dc mit den größten Ähnlichkeiten werden in der Institutionsnamensdatei FL gespeichert.
Wenn der Befehlsvorgang zur Korrektur von „Institutionsname" durchgeführt wird, wird auf diese Weise das Institutionsnamenswörterbuch ML auf Grundlage der Erkennungsergebnisvokabulare Dc ausgewählt und festgelegt, die bereits in der Oberbegriffsdatei FJ und der Ortsnamensdatei FK gespeichert wurden, d.h. auf Grundlage der Erkennungsergebnisvokabulare Dc, welche die Eingrenzungsbedingungen erfüllen. Dementsprechend wird ein schneller Korrekturvorgang im Vergleich dazu möglich, dass der Oberbegriff und der Ortsname aus dem Arbeitsbereich rückgesetzt (korrigiert oder verändert) werden. Im Ergebnis ist der Benutzer nicht gezwungen, mühsame Vorgänge durchzuführen, wodurch die Benutzerfreundlichkeit verbessert wird.
Im Stand der Technik müssen ein Oberbegriffs- und ein Ortsname, bei denen es sich um Begriffe höherer Ebene handelt, neu eingegeben werden, wenn „Institutionsname" korrigiert werden soll. Die vorliegenden Erfindung stellt jedoch eine stark verbesserte Benutzerfreundlichkeit bereit. Auch wird bei der vorliegenden Erfindung die Korrekturverarbeitung auf eine Weise durchgeführt, dass eine echte Eingrenzungsverarbeitung erfolgt, wodurch die Spracherkennungsrate verbessert wird.
Wenn darüber hinaus der Benutzer einen Befehlsvorgang „nächste in Frage kommende Angabe" oder „~, nächste in Frage kommende Angabe" zur Korrektur des Institutionsnamens durchführt, wird bei den Schritten S142 bis S148 bestimmt, ob es eine nächste in Frage kommende Angabe des Erkennungsergebnisvokabulars in der Institutionsnamensdatei FL gibt oder nicht. Gibt es die nächste in Frage kommende Angabe, erfolgt der Prozess von Schritt S127 unter Verwendung des nächsten in Frage kommenden Erkennungsergebnisvokabulars als Erkennungsergebnis. Dementsprechend erfolgt die Korrekturverarbeitung so, dass eine echte Eingrenzungsverarbeitung ordnungsgemäß durchgeführt wird, ohne dass noch einmal ein Oberbegriff und ein Institutionsname sprachlich eingegeben werden, bei denen es sich um Begriffe höherer Ebene handelt. Auch ist der Benutzer nicht gezwungen, mühsame Vorgänge durchzuführen, wodurch die Benutzerfreundlichkeit verbessert wird.
Wie vorstehend erläutert, ist es nach der vorliegenden bevorzugten Ausführungsform möglich, eine Spracherkennung in Übereinstimmung mit den kennzeichnenden Angaben der gewollten kennzeichnenden Angaben des Benutzers durchzuführen und einfache und schnelle Korrekturvorgänge (Korrekturbefehlsvorgang) bereitzustellen, ohne dass der Benutzer dabei gezwungen ist, mühsame Vorgänge durchzuführen.
Als Nächstes wird mit Bezug auf die Ablaufdiagramme der 10 bis 12 ein konkreteres Beispiel für einen Korrekturverarbeitungsvorgang erläutert, wenn ein Befehlsvorgang „nächste in Frage kommende Angabe" oder „~, nächste in Frage kommende Angabe" durchgeführt wird.
In den 10 und 12 sind die Prozesse, die denjenigen der 8 und 9 entsprechen, mit denselben Schrittnummern bezeichnet.
Hier jedoch sind mehr Einzelheiten für den Prozess wiedergegeben, bei dem S120 bestimmt, dass der Benutzer eine Korrektur anforderte ("JA" bestimmt) und dann die Prozesse des Schritts S122 oder S118 von 10 über einen Knoten D oder E ausgelöst werden, nachdem die Prozesse von 12A erfolgt sind. Darüber hinaus sind mehr Einzelheiten für den Prozess wiedergegeben, bei dem Schritt S134 bestimmt, dass der Benutzer eine Korrektur anforderte („JA" bestimmt) und dann der Prozess des Schritts S136 oder S127 über einen Knoten D' oder A ausgelöst wird, nachdem die Prozesse von 12B erfolgt sind.
Das heißt, beim Schritt S204 und Schritt S304 von 12A bzw. 12B erfolgt eine Bestimmung der nächsten in Frage kommenden Angabe des Erkennungsergebnisvokabulars in Übereinstimmung mit dem Befehlsvorgang „nächste in Frage kommende Angabe" oder „~, nächste in Frage kommende Angabe".
Zuerst geht der Ablauf, wenn der Befehlsvorgang zur Korrektur beim Schritt S120 von 10 durchgeführt wird, zu dem in 12A gezeigten Schritt S200 über.
Beim Schritt S200 erfolgt eine Bestimmung, ob der einfache Befehlsvorgang durch Aussprechen von „nächste in Frage kommende Angabe" oder der Befehlsvorgang „~, nächste in Frage kommende Angabe" durchgeführt wurde. Wenn einer dieser beiden Befehlsvorgänge zur Abfrage der nächsten in Frage kommenden Angabe durchgeführt wird, bestimmt Schritt S202 auf Grundlage von Steuerwörtern WW, ob die nächste in Frage kommende Angabe des Erkennungsergebnisvokabulars in der bezeichneten Datei (mit FJ, FK und FL bezeichneten Datei) vorkommt.
Gibt es die nächste in Frage kommende Angabe des Erkennungsergebnisvokabulars, bestimmt Schritt S204 die nächste in Frage kommende Angabe als das Erkennungsergebnis. Dann geht der Ablauf über einen Knoten E zum Schritt S118 von 10 über, und das Erkennungsergebnisvokabular wird als Erkennungsergebnis präsentiert.
Dementsprechend wird der Prozess von Schritt S118, wenn der Befehlsvorgang „nächste in Frage kommende Angabe" oder „~, nächste in Frage kommende Angabe" erfolgt, direkt über den Knoten E ausgeführt, ohne die Prozesse der Schritte S110 bis S116 ablaufen zu lassen, wodurch eine Vereinfachung des Prozesses realisiert wird.
Falls hingegen entweder Schritt S200 oder S202 von 12A „NEIN" rückmeldet, geht der Prozess über den Knoten D zum Schritt S122 über. Dies ermöglicht es dem Benutzer, einen anderen Befehlsvorgangs als „nächste in Frage kommende Angabe" oder „~, nächste in Frage kommende Angabe" durchzuführen, z. B. einen Befehlsvorgang „Korrektur" oder „~, Korrektur", welcher eine Korrektur anweist.
Wenn als Nächstes beim Schritt S138 von 11 bestimmt wird, dass ein Befehlsvorgang „nächste in Frage kommende Angabe" oder „~, nächste in Frage kommende Angabe" zur Korrektur des Institutionsnamens erfolgt (Bestimmung „JA"), werden die Prozesse der Schritte S142 bis S148 durchgeführt und die Prozesse von S127 und die anschließenden Prozesse wiederholt. Wird jedoch der Befehl zur Korrektur des Institutionsnamens durch den Befehlsvorgang „nächste in Frage kommende Angabe" oder „~, nächste in Frage kommende Angabe" gegeben, werden bei den Prozessen der Schritte S142 bis S149 die Prozesse von 12B durchgeführt und die Prozesse von Schritt S127 und die anschließenden Prozesse wiederholt.
Auf diese Weise wird, wenn der Befehlsvorgang „nächste in Frage kommende Angabe" oder „~, nächste in Frage kommende Angabe" erfolgt, die nächste in Frage kommende Angabe für das Erkennungsergebnisvokabular bestimmt, indem die Prozesse von 12A oder 12B durchgeführt werden.
Wie vorstehend erläutert, besitzt die vorliegende bevorzugte Ausführungsform insofern eine exzellente Funktionalität, als Benutzer über den Befehlsvorgang „nächste in Frage kommende Angabe" und „~, nächste in Frage kommende Angabe" stark vereinfachte und schnelle Korrekturbefehle erteilen können. Bei mehreren Erkennungsergebnisvokabularen Dc, die im Erkennungsergebnisspeicherbereich MR gespeichert sind, handelt es sich um solche Erkennungsergebnisvokabulare, die gleich oder ähnlich Vokabularen sind, die zu den Kategorien Institutionsname, Oberbegriff und Ortsname gehören. Selbst wenn sich herausstellt, dass das Erkennungsergebnisvokabular, das die größte Ähnlichkeit hat, fehlerhaft erkannt wurde, besteht somit eine starke Möglichkeit, dass das Erkennungsergebnisvokabular, das gleich dem Vokabular ist, das durch den Benutzer ausgesprochen wurde, in den übrigen (anschließenden in Frage kommenden) Erkennungsergebnisvokabularen vorkommt. Deswegen ermöglicht der Befehlsvorgang des Benutzers „nächste in Frage kommende Angabe" oder „~, nächste in Frage kommende Angabe" zum Anweisen der Korrektur eine durch hohe Wahrscheinlichkeit geprägte Bestimmung des gewünschten Erkennungsergebnisvokabulars mit einfachen Korrekturvorgängen.
Hier werden anhand der vorstehenden bevorzugten Ausführungsformen die Fälle als typisches Beispiel erläutert, bei denen die vorliegende Spracherkennungsvorrichtung den Benutzer auffordert, ein Vokabular auszusprechen, und der Benutzer dann als Antwort nach und nach ein Vokabular sprachlich eingibt. Die vorliegende Erfindung ist jedoch nicht darauf beschränkt. Insbesondere kann die Spracherkennungsvorrichtung den Benutzer auffordern, mehrere Vokabulare auszusprechen, und der Benutzer kann mehrere Vokabulare in Form einer durchgehenden Sprache sprachlich eingeben.
Das heißt, wenn die Spracherkennungsvorrichtung mehrere Vokabulare abfragt, legt sie die Erkennungswörterbücher unter den Erkennungswörterbüchern im Erkennungswortspeicherteil 11 fest, die den Attributen (Kategorien) dieser Vokabulare entsprechen. Dann können durch Vergleichen der Erkennungsreferenzvokabulare Db in den ausgewählten Erkennungswörterbüchern mit den mehreren Analysedaten Da und durch Einholen von Anweisungen und Befehlen vom Benutzer über Steuerwörter WW, die mehreren Vokabulare auf einmal auf Grundlage der Steuerwörter WW erhalten werden.
Und zwar können, wie in den 4C bis 4E gezeigt ist, die Steuerwörter WW hergestellt werden, indem mehrere Grundformen verbunden werden, wenn mehrere Vokabulare sprachlich eingegeben werden, wobei diese mehreren Vokabulare zu einem Satz von Steuerwörtern WW vereint werden können. Somit können die durch den Benutzer angewiesenen Prozesse kollektiv verarbeitet oder auf Grundlage der Steuerwörter WW abschnittsweise verarbeitet werden. Weil die Steuerwörter WW genutzt werden, um die Spracheingabe von Benutzern einzuholen, wird es auf diese Weise möglich, eine hochflexible Verarbeitung zu bieten.
Darüber hinaus sind die Vokabulare des wie vorstehend erläuternden Steuerbefehlsworts Y lediglich beispielhaft. Es sind auch andere Vokabulare möglich. Zum Beispiel können auch Vokabulare wie „falsch", „richtig", usw. anstelle von „Korrektur" verwendet werden, und Vokabulare wie „Weiter", „in Frage kommende Angabe", „Änderung in Frage kommende Angabe", usw. können anstelle von „nächste in Frage kommende Angabe" verwendet werden.
Wie vorstehend erläutert, werden nach der vorliegenden Erfindung Steuerwörter vorab gespeichert, die den jeweiligen Verarbeitungsfunktionen entsprechen; und wenn diese eine Verarbeitungsfunktion präsentiert wird, und Spracheingabeinformation mit Befehlsinformation, die diese eine Verarbeitungsfunktion bezeichnet, von außen als Antwort auf die Präsentation eingegeben wird, wird die Spracheingabeinformation erkennungstechnisch verarbeitet, und die Verarbeitungsfunktion erfolgt in Übereinstimmung mit den Steuerwörtern, die der Befehlsinformation entsprechen. Indem dementsprechend die Steuerwörter vorab so festgelegt werden, dass sie verschiedene Verarbeitungsfunktionen haben, wird es möglich, verschiedene Prozesse prompt und genau durchzuführen. Im Ergebnis werden überlegene Wirkungen bei der Durchführung von Dialogvorgängen erzielt.
Während das, was beschrieben wurde, als die gegenwärtig bevorzugten Ausführungsformen der vorliegenden Erfindung erachtet werden, sollte klar sein, dass verschiedene Abänderungen daran vorgenommen werden können und die beigefügten Ansprüchen alle solchen Abänderungen als in den Rahmen der Erfindung fallend abdecken sollen.
Bezugszeichenliste

Claims

Mensch-Maschine-System, das mit einer Spracherkennungsvorrichtung ausgestattet ist und Folgendes umfasst: eine Schaltung (1) zum Empfangen eines gesprochenen Worts, das entsprechend einer Anforderung aus der Spracherkennungsvorrichtung eingegeben wird, und zum Ausgeben eines Eingabeworts (Din); eine Vergleichsschaltung (2) zum Vergleichen des Eingabeworts (Din) mit Referenzvokabularen (Db, W), die sich auf die Anforderung beziehen, und zum Auswählen mindestens eines der Referenzvokabulare; einen ersten Speicher (MR) zum Speichern des mindestens einen ausgewählten Referenzvokabulars; und eine Steuerschaltung (4) zum Ausführen eines Steuerworts (WW), das einen Aufbau hat, der sich aus einem Steuerbefehlswort (Y) und einem Objektwort (X), das durch das Steuerbefehlswort (Y) gesteuert wird, zusammensetzt; dadurch gekennzeichnet, dass falls das Eingabewort (Din) nur das Steuerbefehlswort (Y) enthält, die Steuerschaltung (4) das mindestens eine ausgewählte Referenzvokabular aus den bereits im ersten Speicher (MR) für das Objektwort (X) gespeicherten Referenzvokabularen ersetzt und das Steuerwort (WW) erzeugt.
Mensch-Maschine-System nach Anspruch 1, das mit einer Spracherkennungsvorrichtung ausgestattet ist, wobei der erste Speicher (MR) mehrere ausgewählte Referenzvokabulare speichert, die Steuerschaltung (4) ein in Frage kommendes Referenzvokabular aus den mehreren ausgewählten Referenzvokabularen auswählt, und das Steuerbefehlswort (Y) einen Befehl enthält, um das in Frage kommende Referenzvokabular auf ein anderes der mehreren ausgewählten Referenzvokabulare umzustellen, die im ersten Speicher (MR) gespeichert sind.
Mensch-Maschine-System nach Anspruch 1, das mit einer Spracherkennungsvorrichtung ausgestattet ist, wobei, wenn das Steuerwort (WW) pauschal in die Spracherkennungsvorrichtung eingegeben wird, die Steuerschaltung (4) das Steuerwort (WW) ausführt.
Mensch-Maschine-System nach Anspruch 1, das mit einer Spracherkennungsvorrichtung ausgestattet ist, wobei das Steuerbefehlswort (Y) einen Befehl enthält, um das Objektwort (X) zu korrigieren.
Mensch-Maschine-System nach Anspruch 3, das mit einer Spracherkennungsvorrichtung ausgestattet ist, wobei der erste Speicher (MR) mehrere ausgewählte Referenzvokabulare speichert, die Steuerschaltung (4) ein in Frage kommendes Referenzvokabular aus den mehreren Referenzvokabularen auswählt, und das Steuerbefehlswort (Y) einen Befehl enthält, um das in Frage kommende Referenzvokabular auf ein anderes Referenzvokabular der mehreren ausgewählten Referenzvokabulare umzustellen, die im ersten Speicher (MR) gespeichert sind.
Mensch-Maschine-System nach Anspruch 3, das mit einer Spracherkennungsvorrichtung ausgestattet ist, wobei das Steuerbefehlswort (Y) einen Befehl enthält, um das Objektwort (X) zu korrigieren.
Mensch-Maschine-System nach Anspruch 4, das mit einer Spracherkennungsvorrichtung ausgestattet ist, wobei die Vergleichsschaltung (4) umfasst: einen Analysator (8) zum Analysieren des Eingabeworts (Din); einen zweiten Speicher (3) zum Speichern eines Analyseergebnisses (Da) des Analysators (8), und eine zweite Schaltung (9) zum Bewerten einer Ähnlichkeit zwischen den Analyseergebnissen (Da) und den Referenzvokabularen (Db, W), die sich auf die Anforderung beziehen.
Mensch-Maschine-System nach Anspruch 6, das mit einer Spracherkennungsvorrichtung ausgestattet ist, wobei die Vergleichsschaltung (2) umfasst: einen Analysator (8) zum Analysieren des Eingabeworts (Din); einen zweiten Speicher (3) zum Speichern eines Analyseergebnisses (Da) des Analysators (8); und zweite Schaltungen (9) zum Bewerten einer Ähnlichkeit zwischen den Analyseergebnissen (Da) und den Referenzvokabularen (Db, W), die sich auf die Anforderung beziehen.
Mensch-Maschine-System nach Anspruch 1, das mit einer Spracherkennungsvorrichtung ausgestattet ist, wobei die Vergleichsschaltung (2) das Eingabewort (Din) mit mehreren Referenzvokabularen vergleicht, die sich auf die Anforderung beziehen, und ausgewählte Referenzvokabulare aus den mehreren Referenzvokabularen auf Grundlage einer Ähnlichkeit mit dem Eingabewort (Din) auswählt; der erste Speicher (MR) die ausgewählten Referenzvokabulare speichert; die Steuerschaltung (4) ein in Frage kommendes Referenzvokabular aus den ausgewählten Referenzvokabularen auswählt; und das Steuerwort (WW) ein Steuerbefehlswort (Y) enthält, um das in Frage kommende Referenzvokabular auf ein anderes Referenzvokabular der ausgewählten Referenzvokabulare umzustellen, so dass ein gewünschtes in Frage kommendes Referenzvokabular erhalten wird, indem das Steuerbefehlswort (Y) ohne das Objektwort (X) wiederholt wird.
Mensch-Maschine-System nach Anspruch 9, das mit einer Spracherkennungsvorrichtung ausgestattet ist, wobei die Steuerschaltung (4) ein ausgewähltes Referenzvokabular aus den bereits im ersten Speicher (MR) gespeicherten Referenzvokabularen für das Objektwort (X) einsetzt.
Mensch-Maschine-System nach Anspruch 9, das mit einer Spracherkennungsvorrichtung ausgestattet ist, wobei das Mensch-Maschine-System in einer Navigationsvorrichtung enthalten ist.