-
HINTERGRUND
DER ERFINDUNG
-
Die
vorliegende Erfindung bezieht sich auf ein Mensch-Maschine-System
mit Spracherkennungsfunktionen, und im Spezielleren auf ein Mensch-Maschine-System,
bei dem ein Benutzer auf der Benutzerseite auf einfache Weise gewünschte Befehle
eingeben kann, und bei dem gewünschte
Prozesse in Übereinstimmung mit
den Benutzerbefehlen auf der Seite des Mensch-Maschine-Systems ordnungsgemäß ausgeführt werden können.
-
Obwohl
das Konzept von Mensch-Maschine-Systemen anfänglich ein System (Gerät) betraf,
das dazu ausgelegt war, die jeweiligen Vorteile von Mensch und Computern
zum Vorteil miteinander zu kombinieren, geht man heutzutage davon
aus, dass dieses Konzept auch Systeme einschließt, welche die Verbindungen zwischen
Mensch und Maschinen im Allgemeineren (Maschinen im weiteren Sinne)
sowie Computern erleichtern.
-
Als
solch ein Mensch-Maschine-System sind Systeme bekannt, die mit einer
Spracherkennungsvorrichtung ausgestattet sind, bei denen ein Sprecher
(Benutzer) sein Vorhaben über
Spracheingabe kundtun (befehlen) kann. Beispielsweise ist ein Navigationssystem
für Autos
bekannt, das sich des GPS-Fahrschemas (GPS – globales Positionierungssystem)
bedient. Bei diesem Navigationssystem können Benutzer über Spracheingabe
ein Ziel, usw. angeben.
-
Wenn
ein Benutzer ein bestimmtes Ziel ausspricht, erkennt dieses Navigationssystem über Spracherkennung
das Ziel, sucht einen Fahrtweg von der momentanen geografischen
Lage zum Ziel, und zeigt den gesuchten Fahrtweg über eine Anzeigevorrichtung
auf einer Karte an.
-
Beispielsweise
erkennt das Navigationssystem das vom Benutzer angegebene Ziel,
indem es die in 13 gezeigten vorbestimmten Schritte
ausführt.
Angenommen, der Benutzer möchte
einen Fahrtweg nach „Meguro
Station" wissen,
bei der es sich um das Ziel handelt. Zuerst generiert beim ersten
Schritt ein Sprachsynthesizer in der Spracherkennungsvorrichtung
einen synthetischen Hörschall
für „Bitte
Namen eingeben", um
den Benutzer aufzufordern, einen bestimmten Zielnamen sprachlich
einzugeben (auszusprechen). Wenn der Benutzer als Antwort „Meguro
Station" ausspricht,
extrahiert die Spracherkennungsvorrichtung die Kennzeichen der Aussprache
des Worts „Meguro
Station" und speichert
die extrahierten Kennzeichenparameter D1 in einem Speicherteil oder
dergleichen ab. Das heißt,
beim ersten Schritt extrahiert das Sprachexkennungssystem nur die
Kennzeichen der Aussprache des Worts „Meguro Station", ohne eine Endstufenerkennung durchzuführen.
-
Als
Nächstes
generiert der Sprachsynthesizer beim zweiten Schritt einen synthetischen
Hörschall
für „Bitte
Oberbegriff eingeben",
um den Benutzer aufzufordern, einen Oberbegriff oder eine Gattungsbezeichnung
auszusprechen, bei dem bzw. der es sich um einen Begriff höherer Ebene
handelt als das spezielle Ziel, das der Benutzer wünscht.
-
Spricht
der Benutzer als Antwort „Bahnhofsname" aus, extrahiert
die Spracherkennungsvorrichtung die Kennzeichen dieser Aussprache
von „Bahnhofsname", um die entsprechenden
Kennzeichenparameter D2 zu generieren. Darüber hinaus vergleicht die Spracherkennungsvorrichtung
die Kennzeichenparameter D2 mit Erkennungsreferenzvokabularen in
einem Erkennungswörterbuch,
das vorab in der Spracherkennungsvorrichtung installiert wurde,
und wählt
ein Erkennungsreferenzvokabular LD2 aus, das dem Kennzeichenparameter
D2 am ähnlichsten
ist, wodurch eine Spracherkennung der Aussprache von „Bahnhofsname" durchgeführt wird,
das der Benutzer ausgesprochen hat.
-
Als
Nächstes
generiert der Sprachsynthesizer beim Schritt 3 einen synthetischen
Hörschall
für „Bitte Ortsbezeichnung
eingeben", um den
Benutzer aufzufordern, eine Ortsbezeichnung auszusprechen.
-
Spricht
der Benutzer als Antwort „Tokio" aus, extrahiert
die Spracherkennungsvorrichtung die Kennzeichen dieser Aussprache
von „Tokio", um die entsprechenden
Kennzeichenparameter D3 zu generieren. Darüber hinaus vergleicht die Spracherkennungsvorrichtung
die Kennzeichenparameter D3 mit Erkennungsreferenzvokabularen im
Erkennungswörterbuch
und wählt
ein Erkennungsreferenzvokabular LD3 aus, das dem Kennzeichenparameter
D3 am ähnlichsten
ist, wodurch eine Spracherkennung der Aussprache des Worts „Tokio" durchgeführt wird,
das der Benutzer ausgesprochen hat.
-
Als
Nächstes
grenzt beim Schritt 4 die Spracherkennungsvorrichtung die Erkennungsreferenzvokabulare
unter den Erkennungsreferenzvokabularen im Erkennungswörterbuch
auf diejenigen ein, die zu den Kategorien der Erkennungsreferenzvokabulare
LD2 und LD3 gehören.
Darüber
hinaus vergleicht die Spracherkennungsvorrichtung den Kennzeichenparameter
D1 mit den eingegrenzten Erkennungsreferenzvokabularen, um ein Erkennungsreferenzvokabular
LD1 auszuwählen,
das den Kennzeichenparametern D1 am ähnlichsten ist, um dadurch
eine Spracherkennung des Worts „Meguro Station" durchzuführen, das
beim ersten Schritt ausgesprochen wurde.
-
Und
zwar ist es beim ersten Schritt, bei dem der Begriff niedrigerer
Ebene des Namens „Meguro
Station" ausgesprochen
wird, im Allgemeinen schwierig, das Erkennungsreferenzvokabular
LD1 auszumachen, das der Bezeichnung des Bahnhofs „Meguro
Station" entspricht,
der in dem Ort liegt, den der Benutzer wünscht.
-
Wegen
dieser Schwierigkeit werden zuerst die Kennzeichenparameter D1 des
ausgesprochenen Worts „Meguro
Station" im Speicherteil
gespeichert. Dann wird beim zweiten bis vierten Schritt ein Suchbereich für Erkennungsreferenzvokabulare
im Erkennungswörterbuch
eingegrenzt, indem die Aussprachen des Oberbegriffs und Ortsnamens
vom Benutzer eingeholt werden. Indem dann die Kennzeichenparameter
D1 mit den so eingegrenzten Erkennungsreferenzvokabularen verglichen
werden, lässt
sich das Erkennungsreferenzvokabular LD1, das „Meguro Station" entspricht, relativ
leicht ausfindig machen.
-
Schließlich wird
auf Grundlage der ausgewählten
Erkennungsreferenzvokabulare LD3 und LD1 ein synthetischer Hörschall „Es ist
OOO in ΔΔΔ, nicht wahr?" erzeugt, um dem
Benutzer das Erkennungsergebnis zu liefern. Das heißt, wenn
die Erkennungsreferenzvokabulare LD3 und LD1 richtig als „Tokio" bzw. „Meguro Station" erkannt werden,
wird der synthetische Hörschall „Es ist
OOO in ΔΔΔ, nicht wahr?" zu einem synthetischen
Hörschall „Es ist
Meguro Station in Tokio, nicht wahr?" und wird dem Benutzer als solcher dargeboten.
-
Somit
wählt die
Spracherkennungsvorrichtung lediglich die Erkennungsreferenzvokabulare
LD1 bis LD3 aus dem Erkennungswörterbuch
aus, die dem jeweiligen vom Benutzer ausgesprochenen Wort am ähnlichsten
sind. Entsprechend besteht eine unvermeidliche Möglichkeit, dass in dem Fall,
dass das vom Benutzer ausgesprochene Wort nicht klar war oder unter
irgendwelchen anderen Umständen „Meguro
Station" fälschlicherweise
als „Mejiro
Station" oder „Tokio" als „Kyoto" erkannt wird, usw.
Falls eine derartige Fehlerkennung auftritt, würde dem Benutzer ein synthetischer
Hörschall „Es ist
Mejiro Station in Kyoto, nicht wahr?" geboten. Somit wird der synthetische
Hörschall
auf Grundlage der Erkennungsreferenzvokabulare LD3 und LD1 erzeugt,
um den Benutzer, wie vorstehend beschrieben, um die Bestätigung der
Erkennungsergebnisse zu bitten. Wenn der Benutzer, indem ex diese
ihm so dargebotene synthetische Stimme hört, feststellt, dass eine korrekte
Spracherkennung erfolgt ist, spricht er beispielsweise „Suche
starten" aus. Dann
erkennt dies die Spracherkennungsvorrichtung, das Navigationssystem
erhält
einen Bestätigungsbefehl
und sucht einen Fahrtweg von der momentanen geografischen Stelle
zum Bahnhof Meguro Station in Tokio. Das Navigationssystem zeigt
dann über
eine Anzeigevorrichtung den gesuchten Fahrtweg auf einer Karte an.
-
Stellt
der Benutzer hingegen fest, dass die Erkennung falsch ist, zeigt
er das an, indem er „zurück" ausspricht. Beim
Erhalt dieses Befehls beginnt die Spracherkennungsvorrichtung die
Spracherkennung von neuem und wiederholt die Spracherkennung, bis
sie im Hinblick auf das wieder vorgelegte Erkennungsergebnis den
Befehl „Suche
starten" vom Benutzer
erhält.
-
Wie
vorstehend erläutert,
besitzt das Navigationssystem insofern eine höhere Funktionalität als es
Dialogvorgänge
durch die Kombination einer Spracherkennungsvorrichtung und einem
Sprachsynthesizer ermöglicht.
-
Da
der Benutzer angeleitet wird, Wörter
in der Reihenfolge auszusprechen, die mit den gewollten kennzeichnenden
Angaben des Benutzers übereinstimmen,
und die zu Schlüsselwörtern werden,
bietet das System dem Benutzer auch einen besseren Komfort. Mit
anderen Worten bestimmt der Benutzer, indem er das gewünschte Ziel
angibt, das spezifischste Ziel (im vorstehenden Beispiel Meguro
Station), und gibt dann dessen Oberbegriff und den Namen des Orts
an, in dem das Ziel liegt. Somit passt sich das Mensch-Maschine-System
den gewollten kennzeichnenden Angaben des Benutzers an.
-
Im
Spezielleren verwendet dieses Informationssuchsystem als effizientes
Informationsverwaltungsschema ein Schema, bei dem eine Kategorie,
bei der es sich um einen Begriff höchster Ebene handelt, bestimmt
wird, und Information eines Begriffs mittlerer Ebene und eines Begriffs
niedrigerer Ebene, die sich auf den Begriff der höheren Ebene
der Kategorie beziehen, auf hierarchische Weise abgehandelt werden.
Indem eine solche hierarchische Struktur übernommen wird, wird die Einengung
der Zielinformation, wenn ein Benutzer eine spezielle Information
aus einer großen
Menge an Begriffsinformation niedrigerer Ebene sucht, dadurch erzielt,
dass der Begriff der höheren
Ebene und der Begriff der mittleren Ebene genutzt wird, wodurch ein
schneller Zugriff auf die gewünschte
Information ermöglicht
wird.
-
Ist
jedoch ein Mensch-Maschine-System so aufgebaut, dass es Suchverfahren
verwendet, die solch einem Informationssuchsystem ähnlich sind,
sich aber davon unterscheiden, gibt es Situationen, in denen den gewollten
kennzeichnenden Angaben des Benutzers nicht richtig Rechnung getragen
wird. Ein Beispiel für
solche Fälle
ist folgendes. Angenommen, dass mit Bezug auf das Navigationssystem
die Begriffskategorie der höheren
Ebene „Oberbegriff" zuerst vom Benutzer
verlangt wird und dieser als Antwort „Bahnhofsname" ausspricht; dann
der Begriff der mittleren Ebene, „Ortsname" vom Benutzer verlangt wird und dieser
als Antwort „Tokio" ausspricht; und
schließlich
der Benutzer nach dem Begriff der niedrigeren Ebene „spezieller
Bahnhofsname" gefragt
wird, und der Benutzer als Antwort „Meguro Station" ausspricht. In diesem
Fall erfolgen die Abfragen in der Reihenfolge, die anders ist als
die gewollten kennzeichnenden Angaben des Benutzers, und im Ergebnis
bekommt der Benutzer ein ungutes Gefühl.
-
Von
diesem Standpunkt her veranlasst das herkömmliche Navigationssystem den
Benutzer, benutzergewollte Stichworte in der Reihenfolge einzugeben,
die kein ungutes Gefühl
hervorrufen und bietet dem Benutzer dementsprechend einen besseren
Bedienungskomfort.
-
Auch
bei den herkömmlichen
Navigationssystemen gibt es jedoch Fälle, bei denen die folgenden Nachteile
aufgrund des Einsatzes eines Spracherkennungsschemas auftreten,
das sich den gewollten kennzeichnenden Angaben des Benutzers anpasst.
-
Beispielsweise
wird im Fall von 13 der ausgesprochene Hörschall
von „Meguro
Station" im ersten Schritt
nicht spracherkennungstechnisch behandelt. Erst nachdem die Eingrenzung
beim zweiten bis vierten Schritt erfolgt ist, wird der Hörschall
von „Meguro
Station" spracherkennungstechnisch
ausgewertet und das Erkennungsergebnis ausgegeben.
-
Tritt
ein Erkennungsfehler auf, ergeht der Befehl „zurück", und die Spracherkennung wird wiederholt, um
den Fehler zu beheben.
-
Der
Befehl „zurück" bedeutet jedoch: „zurück zum einen
Schritt zurückliegenden
Prozess und Neubeginn des Prozesses". Deswegen muss der Benutzer, wenn das
Ziel „Meguro
Station" falsch
erkannt wurde, dreimal „zurück" sagen, um vom vierten
zum ersten Schritt zurückzukehren,
damit die in 13 gezeigten Prozesse vom ersten
bis vierten Schritt wiederholt werden. Dies ist ein erheblicher
Nachteil, weil der Benutzer gezwungen ist, mühsame Vorgänge durchzuführen. Entsprechend
muss der Benutzer, wenn „Bahnhofsname" falsch erkannt wird,
zweimal „zurück" aussprechen, um
vom vierten zum zweiten Schritt zurückzukehren, damit die in 13 gezeigten
Prozesse vom zweiten bis vierten Schritt wiederholt werden, wodurch
der Benutzer gezwungen ist, mühsame
Vorgänge
durchzuführen,
was unerwünscht
ist.
-
Somit
reagiert das herkömmliche
Navigationssystem auf Erkennungsfehler, indem die Funktion eines Überschreibens
(Ersetzens) der vorherigen Spracheingabeinformation durch neue Spracheingabeinformation ersetzt
wird, wenn „zurück" ausgesprochen wird.
Diese Funktion beläuft
sich jedoch einfach nur auf die Wiederholung der Spracherkennung
und stellt keine Funktionen bereit, anhand derer der Benutzer eine
Korrektur durch einfache Vorgänge
befehlen kann. Entsprechend besteht der Nachteil, dass Benutzer
gezwungen werden, mühsame
Vorgänge
durchzuführen.
-
Ein
Beispiel eines bekannten Mensch-Maschine-Systems ist in der Patentschrift
WO-A-99/01829 offenbart.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Die
vorliegende Erfindung wird bereitgestellt, um den Problemen des
herkömmlichen
Stands der Technik beizukommen. Eine Aufgabe der vorliegenden Erfindung
besteht darin, ein wie in den beigefügten Ansprüchen beanspruchtes Mensch-Maschine-System bereitzustellen,
das mit einer Spracherkennungsvorrichtung ausgestattet ist, die
es Benutzern ermöglicht,
einfache herkömmliche
Vorgänge
(z.B. Korrektur, usw.) auszuführen.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Diese
und weitere Aufgaben und Vorteile der vorliegenden Erfindung werden
aus der folgenden Beschreibung mit Bezug auf die beigefügten Zeichnungen
deutlich:
-
1 ist
ein Blockschema, das eine Konfiguration einer Spracherkennungsvorrichtung
nach der vorliegenden Erfindung zeigt;
-
2 ist
eine erläuternde
Abbildung, die einen hierarchischen Aufbau von Erkennungswörterbüchern zeigt;
-
3 ist
eine erläuternde
Abbildung, die einen Dateiaufbau in einem Erkennungsergebnisspeicherbereich
zeigt;
-
die 4A bis 4E sind erläuternde Abbildungen, die Strukturen
von Steuerwörtern
zeigen;
-
5 ist
eine erläuternde
Abbildung, die Beispiele für
Steuerwörterarten
zeigen;
-
6 ist
ein Ablaufdiagramm zur Erläuterung
eines Beispiels für
den Grundfunktionsablauf der vorliegenden Spracherkennungsvorrichtung;
-
7 ist
ein Ablaufdiagramm zur Erläuterung
eines Beispiels für
den Grundfunktionsablauf zur Korrekturverarbeitung der vorliegenden
Spracherkennungsvorrichtung;
-
8 ist
ein Ablaufdiagramm zur Erläuterung
eines Beispiels für
einen spezielleren Funktionsablauf der vorliegenden Spracherkennungsvorrichtung;
-
9 ist
ein Ablaufdiagramm zur weiteren Erläuterung eines Beispiels für einen
spezielleren Funktionsablauf der vorliegenden Spracherkennungsvorrichtung;
-
10 ist
ein Ablaufdiagramm zur weiteren Erläuterung eines Beispiels für einen
spezielleren Funktionsablauf der vorliegenden Spracherkennungsvorrichtung;
-
11 ist
ein Ablaufdiagramm zur weiteren Erläuterung eines Beispiels für einen
spezielleren Funktionsablauf der vorliegenden Spracherkennungsvorrichtung;
-
die 12A und 12B sind
Ablaufdiagramme zur weiteren Erläuterung
eines Beispiels für
einen spezielleren Funktionsablauf der vorliegenden Spracherkennungsvorrichtung;
und
-
13 ist
ein Ablaufdiagramm zur Erläuterung
des Funktionsablaufs einer herkömmlichen
Spracherkennungsvorrichtung.
-
AUSFÜHRLICHE
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
-
Bevorzugte
Ausführungsformen
der vorliegenden Erfindung werden nun im Einzelnen mit Bezug auf die
Zeichnungen beschrieben. Als bevorzugte Ausführungsform wird auch ein Kraftfahrzeugnavigationssystems
beschrieben, das Spracherkennungsfunktionalität nutzt.
-
1 zeigt
ein Blockschema, das eine Konfiguration eines Spracherkennungsvorrichtungsaufbaus nach
einer bevorzugten Ausführungsform
der vorliegenden Erfindung zeigt, der in einem Kraftfahrzeugnavigationssystem
installiert ist. Im Einzelneren zeigt das Blockschema einen Teil
einer Spracherkennungsvorrichtung, die in dem Kraftfahrzeugnavigationssystem
als Mensch-Maschine-Schnittstellenvorrichtung eingebaut ist.
-
Wie
in 1 gezeigt ist, besteht diese Spracherkennungsvorrichtung
aus einem Spracheingabeteil 1, das mit einem Mikrofon ausgestattet
ist, einem Signalverarbeitungsteil 2, einem Speicherteil 3,
einem Steuerteil 4, das mit einem Mikroprozessor (MPU)
ausgestattet ist, einem Bedienteil 5 wie einer Tastatur,
usw., einem Sprachausgabeteil 6, das mit einem Sprachsynthesizer
in Form einer integrierten Schaltung ausgestattet ist, und einem
Anzeigeteil 7, das aus einer Flüssigkristallanzeige, usw. besteht.
-
Hier
können
das Bedienteil 5, das Sprachausgabeteil 6 und
das Anzeigeteil 7 gemeinsam Bestandteile des Navigationssystems
sein, oder können über eine
separate externe Vorrichtung oder über separate externe Vorrichtungen
an das System angeschlossen sein.
-
Das
Speicherteil 3 besteht aus einem Analysedatenspeicherteil 10 und
einem Erkennungswortspeicherteil 11. Das Signalverarbeitungsteil 2 besteht
aus einem digitalen Signalprozessor (DSP) usw., und ist mit einem
Sprachanalyseteil 8 und einem Ähnlichkeitsberechnungsteil 9 ausgestattet,
die in Übereinstimmung
mit Steuersignalen aus dem Steuerteil 4 arbeiten.
-
Das
Spracheingabeteil 1 fängt
die Sprache (Stimme) eines Benutzers auf, setzt die Sprache in digitale Sprachdaten
Din um, und liefert die Daten an das Sprachanalyseteil 8.
-
Das
Sprachanalyseteil 8 extrahiert die Kennzeichen der vom
Benutzer ausgesprochenen Sprache auf Grundlage der Sprachdaten Din,
und gibt Kennzeichenparameterdaten Da aus, bei denen es sich um
das Ergebnis der Extraktion handelt (im Nachstehenden als „Analysedaten" bezeichnet).
-
Das
Analysedatenspeicherteil 10 besteht aus einem überschreibbaren
Speicher (RAM) und speichert die Analysedaten Da, die vom Sprachanalyseteil 8 ausgegeben
werden. Auch liefert das Analysedatenspeicherteil 10 die
gespeicherten Analysedaten Da' in Übereinstimmung
mit Steuersignalen aus dem Steuerteil 4 an das Ähnlichkeitsberechnungsteil 9.
-
Hier übernimmt
die Spracherkennungsvorrichtung ein Dialogschema, bei dem es eine
Kategorie von Wörtern
angibt, die der Benutzer aussprechen soll, und dieser sagt dann
eines der Wörter
aus der Kategorie. Das Analysedatenteil 10 speichert Analysedaten
Da in Übereinstimmung
mit der angegebenen Kategorie von Wörtern.
-
Das
Erkennungswortspeicherteil 11 besteht aus einem Festwertspeicher
(ROM) und speichert viele Referenzdaten (die nachstehend als „Erkennungsreferenzvokabulare" bezeichnet werden),
die mit den Analysedaten Da, Da' verglichen
werden sollen, wenn vom Benutzer ausgesprochene Wörter erkennungstechnisch bearbeitet
werden. Diese Erkennungsreferenzvokabulare sind in mehreren Erkennungswörterbüchern klassifiziert
gespeichert. Wie in 2 gezeigt ist, umfassen diese
Erkennungswörterbücher hierarchisch
ein Oberbegriffswörterbuch
MJ, ein Ortsnamenswörterbuch
MK und ein Institutionsnamenswörterbuch
ML.
-
Auf
der höchsten
Ebene des Oberbegriffswörterbuchs
MJ sind „Bahnhofsnamen", „Krankenhausnamen", „Vergnügungsparknamen", usw. als Erkennungsreferenzvokabulare
zugeteilt. In einem Ortsnamenswörterbuch
MK, das jeweils von einem Oberbegriffswörterbuch MJ abhängt, sind
die Ortsbezeichnungen wie „Hokkaido", „Tokio", usw. als Erkennungsreferenzvokabulare
zugeteilt. In einem Institutionsnamenswörterbuch ML, das jeweils von
einem Ortsnamenswörterbuch
MK abhängt,
sind die speziellen Institutionsbezeichnungen wie „Meguro
Station", „Tokio
Station", usw. als
Erkennungsreferenzvokabulare zugeteilt.
-
So
sind im Vokabular „Bahnhofsname" im Oberbegriffswörterbuch
MJ national anerkannte Ortsnamen wie „Hokkaido", „Tokio" in einer Baumstruktur
als Erkennungsreferenzvokabulare enthalten, und in jedem der Vokabulare
der Ortsnamen sind die Institutionsnamen von Bahnhöfen in einer
Baumstruktur enthalten, die in dem entsprechenden Ort liegen. Auch
sind im Vokabular „Krankenhausnamen" im Oberbegriffswörterbuch
MJ national anerkannte Ortsnamen enthalten, und unter jedem der
Ortsnamen sind die Institutionsnamen vieler Krankenhäuser enthalten,
die in dem Ort liegen. Entsprechend sind im Vokabular „Vergnügungsparknamen" national anerkannte
Ortsnamen und die Institutionsnamen vieler Vergnügungsparks in dem Ort enthalten.
-
Darüber hinaus
liegt bei dieser Spracherkennungsvorrichtung eine Vielzahl an Befehlsinformation
(als „Befehlsvokabulare" bezeichnet) bereit.
Die Befehlsinformation wird zum Ausführen des entsprechenden Befehls,
wie etwa Korrektur, verwendet, der durch den Benutzer über Spracheingabe
oder über
das Bedienteil 5 eingegeben wird. Diese Befehlsvokabulare
W sind auch im Erkennungswortspeicherteil 11 als Befehlswörterbuch
MC gespeichert.
-
Hier
werden die Erkennungsreferenzvokabulare (Vokabulare, bei denen es
sich um zu erkennende Objekte handelt) wie „Bahnhofsname", „Krankenhausname", „Vergnügungsparkname", usw., die zur Kategorie des
Oberbegriffswörterbuchs
MJ gehören, „Oberbegrifferkennungsreferenzvokabulare" genannt. Die Erkennungsreferenzvokabulare
wie „Hokkaido", „Tokio", usw., die zur Kategorie
des Ortsnamenswörterbuchs
MK gehören,
werden „Ortsnamenserkennungsreferenzvokabulare" genannt. Die Erkennungsreferenzvokabulare, die
zum Institutionsnamenswörterbuch
ML gehören,
werden „Institutionsnamenserkennungsreferenzvokabulare" genannt. Andererseits
wird der Vorgang, durch den ein Benutzer dieser Spracherkennungsvorrichtung Befehle
erteilt, indem er die Befehlsvokabulare W verwendet, „Befehlsvorgang" genannt.
-
Das Ähnlichkeitsberechnungsteil 9 vergleicht
die Analysedaten Da, die vom Sprachanalyseteil 8 geliefert
werden, mit Erkennungsreferenzvokabularen Db, die in den Wörterbüchern MJ,
MK, ML und MC enthalten sind, und wählt ein Erkennungsreferenzvokabular,
das den Analysedaten Da am ähnlichsten
ist, und Vokabulare aus, deren Ähnlichkeiten
größer sind
als ein vorbestimmter Ähnlichkeitsbestimmungsstandard.
Dann gibt das Ähnlichkeitsberechnungsteil 9 die
ausgewählten
Erkennungsreferenzvokabulare Db als Erkennungsergebnisvokabulare
Dc an das Steuerteil 4 aus. Das Ähnlichkeitsberechnungsteil 9 verarbeitet
auch die Analysedaten Da' auf ähnliche
Weise, die vom Analysedatenspeicherteil 10 geliefert werden,
und gibt die den Analysedaten Da' entsprechenden
Erkennungsergebnisvokabulare Dc an das Steuerteil 4 aus.
-
Über die
vorstehenden Prozeduren werden die Erkennungsergebnisse der Sprache
(Stimmen) wie „Bahnhofsname", „Tokio", „Meguro
Station", usw.,
und ein Wort, das für
den Befehlsvorgang ausgesprochen wird, wie etwa „Korrektur", dem Steuerteil 4 als Erkennungsergebnisvokabulare
Dc geliefert.
-
Hier
werden die Wörterbücher MJ,
MK, ML und MC, auf die beim Vergleich mit den Analysedaten Da, Da' zurückgegriffen
wird, selektiv in Übereinstimmung
mit einem Steuersignal C angewählt,
das vom Steuerteil 4 geliefert wird. Wenn zum Beispiel
ein Benutzer aufgefordert wird, ein Vokabular auszusprechen, das
zur Oberbegriffskategorie gehört,
wird das Oberbegriffswörterbuch
MJ durch das Steuersignal C gewählt.
Nachdem der Benutzer ein Vokabular in Übereinstimmung mit dem Befehl
ausgesprochen hat, vergleicht das Ähnlichkeitsberechnungsteil 9 die
dadurch erhaltenen Analysedaten Da (oder Da') mit Erkennungsreferenzvokabularen
im Oberbegriffswörterbuch
MJ. Auf diese Weise entspricht der Inhalt des Worts, das auszusprechen der
Benutzer angewiesen wird, einer Auswahl der Wörterbücher MJ, MK, ML und MC. Darüber hinaus
erfolgt das Auslesen von Analysedaten Da' aus dem Analysedatenspeicher 10 in Übereinstimmung
mit der Auswahl der Wörterbücher MJ,
MK, ML und MC.
-
Das
Steuerteil 4 gibt durch das Ausführen einer vorbestimmten Systemsoftware
die Steuersignale zum Steuern des gesamten Funktionsablaufs dieser
Spracherkennungsvorrichtung aus, und überträgt die Ergebnisse der Spracherkennung
an ein zentrales Steuerteil (in den Figuren nicht gezeigt) im Navigationssystem
als Steuerausgänge.
-
Darüber hinaus
nimmt das Steuerteil 4 Befehle von einem Benutzer über das
Bedienteil 5 entgegen und stellt Daten, die dem Benutzer
präsentiert
werden sollen, und Spracherkennungsergebnisse über ein Sprachausgabeteil 6 oder
ein Anzeigeteil 7 bereit, wodurch für Audio- und Videokommunikation
gesorgt wird.
-
Im
Steuerteil 4 ist auch ein Erkennungsergebnisspeicherbereich
MR installiert, um die Erkennungsergebnisvokabulare Dc zu speichern,
die vom Ähnlichkeitsberechnungsteil 9 geliefert
werden. Wie in 3 gezeigt ist, enthält der Erkennungsergebnisspeicherbereich
MR eine Oberbegriffsdatei FJ, eine Ortsnamensdatei FK und eine Institutionsnamensdatei
FL, und die Erkennungsergebnisvokabulare Dc werden klassifiziert
in diesen Dateien FJ. FK und FL gespeichert.
-
Wie
vorstehend erläutert, übernimmt
diese Spracherkennungsvorrichtung ein Dialogschema, bei dem einem
Benutzer eine Vokabularkategorie bereitgestellt wird, und der Benutzer
ein in der bestimmten Vokabularkategorie enthaltenes Vokabular ausspricht.
Wenn somit der Benutzer aufgefordert wird „Bitte Oberbegriff wählen", werden die entsprechenden
Erkennungsergebnisvokabulare Dc in der Oberbegriffsdatei FJ gespeichert.
Wenn der Benutzer aufgefordert wird „Bitte Ortsnamen wählen" oder „Bitte
Bezirksnamen wählen", usw., werden die
entsprechenden Erkennungsergebnisvokabulare Dc in der Ortsnamensdatei
FK gespeichert. Und wenn der Benutzer aufgefordert wird „Bitte
Namen der Institution wählen", werden die entsprechenden
Erkennungsergebnisvokabulare Dc in der Institutionsnamensdatei FL
gespeichert.
-
Darüber hinaus
werden mehrere Erkennungsergebnisvokabulare Dc vom Ähnlichkeitsberechnungsteil 9 in
der Reihenfolge der größeren Ähnlichkeit
an das Steuerteil 4 übertragen.
So werden, wie in 3 gezeigt, mehrere Erkennungsergebnisvokabulare
Dc11, Dc12, usw., Dc21; Dc22; usw., und Dc31, Dc32, usw. jeweils geordnet
in der Reihenfolge größerer Ähnlichkeit
in den Dateien FJ, FK und FL gespeichert.
-
Dann
analysiert das Steuerteil 4 als Grundoperation die Erkennungsergebnisvokabulare
Dc11, Dc21 und Dc31 mit den größten Ähnlichkeiten in den jeweiligen
Dateien FJ, FK und FL, um das durch den Benutzer bezeichnete Ziel
(Institutionsnamen), usw. zu bestimmen. Wenn jedoch ein Befehlsvorgang
eingegeben wird, um das nächste
in Frage kommende Ziel auszuwählen,
bestimmt das Steuerteil 4 das Ziel (Institutionsnamen), usw.,
das durch den Benutzer angegeben wurde, auf Grundlage der Erkennungsergebnisvokabulare
mit den nächstgrößten Ähnlichkeiten.
-
Darüber hinaus
werden mehrere Steuerwörter
WW vorab im Steuerteil 4 hinterlegt und abgespeichert. Diese
Steuerwörter
WW werden zur Bestimmung des Inhalts (der Bedeutung) eines Befehls
bereitgestellt, der durch einen Befehlsvorgang angewiesen wurde,
um im Ansprechen darauf Schnellvorgänge durchzuführen. Die
Steuerwörter
WW besitzen zwei Grundformen.
-
Wie
in 4A schematisch gezeigt ist, baut eine erste Grundform
der Steuerwörter
WW auf einem Paar aus einem gesteuerten Objektwort X und einem Steuerbefehlswort
Y auf. Das Steuerbefehlswort Y gibt einen Operationsgegenstand an,
der in Übereinstimmung
mit dem Benutzerbefehl verarbeitet werden soll, und das gesteuerte
Objektwort X gibt einen Objektgegenstand an, der in Übereinstimmung
mit dem Steuerbefehlswort Y verarbeitet werden soll. Wenn beispielsweise
diese Spracherkennungsvorrichtung das Spracherkennungsergebnis als „Es ist
ein Bahnhofsname in Tokio, nicht wahr?" ausgibt, und ein Benutzer als Antwort
sagt „Bahnhofsname,
Korrektur", läuft ein
Prozess zur Korrektur des Bahnhofsnamens an, und zwar auf Grundlage der
Steuerwörter
WW, die aus (X + Y) = (Bahnhofsname + Korrektur) bestehen. Falls
das Ergebnis einer neuen Spracheingabe „Krankenhausname" lautet, wird das
korrigierte Ergebnis erneut in Form einer synthetischen Stimme „Es ist
ein Krankenhausname in Tokio, nicht wahr?" oder dergleichen ausgegeben.
-
Das
heißt,
das gesteuerte Objektwort X, das ein zu überprüfendes Objekt angibt, hat denselben
Inhalt wie Erkennungsreferenzvokabulare, usw., die ein jeweiliges
Attribut (Kategorie) für
den Oberbegriff, die Ortsnamen und Institutionsnamen haben, und
die Steuerwörter
WW werden aufgebaut, indem ein Steuerbefehlswort Y vorab an diese
Erkennungsreferenzvokabulare oder dergleichen angehängt wird.
-
Beim
vorstehenden Beispiel handelt es sich um den Fall, bei dem das Steuerbefehlswort
Y „Korrektur" lautet. Verschiedene
Arten von wie in 5 gezeigten Steuerwörtern werden
vorab vorbereitet. In 5 gibt die linke Spalte Formen
der Steuerwörter
an, die rechte Spalte gibt die Bedeutung des jeweiligen Befehlsworts an,
und die mittlere Spalte gibt die Indikatoren des jeweiligen Steuerbefehlsworts
Y am. Beim Teil „~" handelt es sich
um ein gesteuertes Objektwort X, und der darauf folgende Satz ist
ein Steuerbefehlswort Y.
-
Bei
einer zweiten, wie in 4B gezeigten Grundform von Steuerwörtern WW
werden nur die Steuerbefehlswörter
Y vorab hinterlegt und abgespeichert, und danach wird ein angewiesenes
Steuerbefehlswort Y an das Erkennungsergebnisvokabular Dc angehängt, das
durch einen Befehlsvorgang eines Benutzers bestimmt wurde, um Steuerwörter WW
aufzubauen. Mit anderen Worten ist bei den in 4A gezeigten
Steuerwörtern
WW das gesteuerte Objektwort X vorbestimmt, wohingegen die in 4B gezeigten
Steuerwörter WW
eine Flexibilität
beim Teil der gesteuerten Objektwörter X aufweisen.
-
Wenn
die Spracherkennungsvorrichtung „Es ist der Bahnhofsname in
Tokio, nicht wahr?" als
Ergebnis der Spracherkennung von „Bahnhofsname" als Oberbegriff
und „Tokio" als Ortsname in
dieser Reihenfolge ausgibt, und ein Benutzer als Antwort darauf „Korrektur" sagt, interpretiert
die Spracherkennungsvorrichtung „Korrektur" als Befehl, um „Tokio" als Ortsnamen zu korrigieren, der zuletzt
(unmittelbar vorher) erkannt wurde.
-
Beispielsweise
sei angenommen, dass das letzte Ergebnis der Erkennung ein Erkennungsergebnisvokabular
Dc21 in der Ortsnamensdatei FK ist und „Tokio" auf Grundlage des Erkennungsergebnisvokabulars Dc21
ausgegeben wird. Wenn die Korrektur angewiesen wird, wird das Erkennungsergebnisvokabular
Dc21, bei dem es sich um das letzte Erkennungsergebnis handelt,
als Erkennungsergebnisvokabular Dc von 4B eingesetzt.
Indem ein in 5 gezeigtes Steuerbefehlswort
Y „Korrektur
(CW)" diesem Erkennungsergebnisvokabular
Dc21 hinzugefügt
wird, werden die Steuerwörter
WW von 4B generiert. Auf Grundlage
der Steuerwörter
WW von (Dc21 + Y), beginnt ein Prozess zur Korrektur des Ortsnamens.
Wenn dann das Ergebnis einer neuen Spracheingabe zu „Kanagawa-Bezirk" wird, wird das Ergebnis
der Korrektur als synthetische Stimme „Es ist ein Bahnhofsname im
Kanagawa-Bezirk, nicht wahr?" oder
dergleichen ausgegeben.
-
Dementsprechend
sorgt die zweite Grundform der Steuerwörter WW für eine schnelle Antwort, wenn ein
Benutzer das Ergebnis der Spracheingaben sofort korrigieren möchte. Wenn
beispielsweise ein Benutzer die Zielangabe häufig ändern möchte, kann das endgültige Ziel,
das am Ende bestimmt werden soll, prompt angewiesen werden, indem
die Spracheingabe des Ziels, usw., und der Befehlsvorgang „Korrektur" abwechselnd wiederholt
wird. Das heißt, „Korrektur" auszusprechen, was
einem Steuerbefehlswort Y entspricht, führt zur Bestimmung des letzten
Erkennungsreferenzvokabulars, wodurch eine einfache Korrektur mit
höherer
Benutzerfreundlichkeit ermöglicht
wird.
-
Andererseits
ist es mit der ersten Grundform der Steuerwörter WW möglich, eine angemessene Verarbeitung
im Falle einer Korrektur nicht nur eines Erkennungsergebnisvokabulars,
das zuletzt spracherkennungstechnisch behandelt wurde, sondern auch
eines Erkennungsergebnisvokabulars durchzuführen, das vor dem zuletzt erkannten
Vokabular spracherkennungstechnisch behandelt wurde.
-
Die 4C bis 4E zeigen konkrete Beispiele anderer Formen
von Steuerwörtern
WW. Diese Figuren zeigen, dass je nachdem, wie ein Benutzer Befehlsvorgänge einsetzt,
Steuerwörter
WW mit verschiedenen Längen
und Kombinationen möglich
sind. Entsprechend diesen entwickelten Formen sind eine Korrektur
mehrerer Erkennungsergebnisvokabulare gleichzeitig (4D und 4E) und Befehle zum Durchführen einer
tatsächlichen
Korrektur nicht nur nach dem Korrekturbefehl, sondern auch nach
dem Ablauf einiger Prozesse, usw. möglich (4C bis 4E).
-
Insbesondere
wenn ein Benutzer mehrere Vokabulare und Befehlsvokabulare als durchgehende
Sprache eingibt, ist es möglich,
angemessene Prozesse, welche die Intention des Benutzers reflektieren,
auf Grundlage dieser entwickelten Formen von Steuerwörtern WW
durchzuführen.
-
Dementsprechend
nimmt diese Spracherkennungsvorrichtung Benutzeranweisungen und
-befehle über
Steuerwörter
WW entgegen, bei denen es sich um Kombinationen feststehender oder
flexibler gesteuerter Objektwörter
X und Steuerbefehlswörter
Y handelt, wodurch ein überlegenerer
Dialogbetrieb bereitgestellt wird.
-
Als
Nächstes
werden Beispiele für
den Funktionsablauf dieser Spracherkennungsvorrichtung mit einem
solchen Aufbau mit Bezug auf die in den 6 bis 9 gezeigten
Ablaufdiagramme erläutert.
Hier wird als repräsentatives
Beispiel der Funktionsablauf für
den Fall erklärt,
bei dem ein Benutzer das Vokabular zu korrigieren wünscht, das
bereits sprachlich eingegeben wurde, d.h. den Fall, bei dem die
in 5 gezeigten Befehle „~, Korrektur", „Korrektur", „~, nächste in
Frage kommende Angabe" und „nächste in
Frage kommende Angabe" abgearbeitet
werden.
-
6 zeigt
einen zugrundeliegenden Funktionsablauf eines Spracherkennungsprozesses
gemäß der vorliegenden
Spracherkennungsvorrichtung. In der Figur fordert die Spracherkennungsvorrichtung
einen Benutzer auf, ein Institutionsnamens-, ein Oberbegriffs- und
ein Ortsnamensvokabular in dieser Reihenfolge auszusprechen, und
grenzt dann die Erkennungsreferenzvokabulare im Erkennungswortspeicherteil 11,
auf die zurückgegriffen
werden soll, auf Grundlage der Vokabulare des Oberbegriffs und des
Ortsnamens ein. Dann werden Analysedaten Da', die im Analysedatenspeicherteil 10 gespeichert
wurden, mit den eingegrenzten Erkennungsreferenzvokabularen Db verglichen,
um das Vokabular des vom Benutzer ausgesprochenen Institutionsnamens
auszumachen. Dies wird „Direktsprachverfahren" genannt und ermöglicht Dialogvorgänge, die sich
den gewollten kennzeichnenden Angaben des Benutzers anpassen.
-
Wenn
hier das Oberbegriffsvokabular spracherkennungstechnisch bearbeitet
und das Institutionsnamensvokabular aufgrund von dessen Erkennungsergebnis
ausgemacht werden kann, muss der Benutzer das Vokabular für den Ortsnamen
nicht bereitstellen. Dementsprechend entfällt in diesem Fall die Aufforderung nach
einem Ortsnamensvokabular.
-
Mit
Bezug auf 6 fordert diese Spracherkennungsvorrichtung
zuerst einen Benutzer auf, ein Vokabular eines Institutionsnamens
sprachlich einzugeben. Wenn der Benutzer ein Institutionsnamensvokabular eingibt,
bei dem es sich um ein gewünschtes
Ziel handelt, werden im Ansprechen darauf Analysedaten Da im Analysedatenspeicherteil 10 hinterlegt
(abgespeichert).
-
Als
Nächstes
fordert die Spracherkennungsvorrichtung den Benutzer auf, ein Vokabular
sprachlich einzugeben, das zur Oberbegriffskategorie gehört, bei
dem es sich um einen Begriff höherer
Ebene handelt. Wenn der Benutzer ein Vokabular sprachlich eingibt,
das zur Oberbegriffskategorie gehört (beispielsweise ein Vokabular „Bahnhofsname" oder dergleichen),
werden im Ansprechen darauf Analysedaten Da der Spracheingabe generiert
und mit Erkennungsreferenzvokabularen Db im Oberbegriffswörterbuch
MJ verglichen. Dann werden die Erkennungsergebnisvokabulare Dc,
bei denen es sich um das Ergebnis des Vergleichs handelt, in der
entsprechenden Datei FJ im Erkennungsergebnisspeicherteil MR gespeichert.
Wenn an diesem Punkt alle Bedingungen zur Spracherkennung der im
Analysedatenspeicherteil 10 gespeicherten Analysedaten
Da' (Analysedaten
des vom Benutzer ausgesprochenen Namens der Institution) erfüllt werden,
werden die Analysedaten Da' mit
Erkennungsreferenzvokabularen Db im entsprechenden Institutionsnamenswörterbuch
ML verglichen, und Erkennungsergebnisvokabulare Dc, bei denen es
sich um das Ergebnis des Vergleichs handelt, werden in der Institutionsnamensdatei
FL gespeichert.
-
Dann
wird dem Benutzer ein Erkennungsergebnisvokabular Dc für den Namen
der Institution, bei dem es sich um das Ergebnis der Erkennung handelt,
zur Bestätigung
dessen präsentiert,
ob Fehler in der Erkennung auftauchen, usw. Wenn anschließend an
die Bestätigung
ein Befehlsvorgang zur Suche eines Fahrtwegs zum Ziel ausgelöst wird,
wird ein Fahrtweg zum Ziel auf Grundlage der entsprechenden Steuerwörter WW
gesucht und der gesuchte Fahrtweg angezeigt.
-
Falls
hier der Institutionsname als Ziel nicht ausgemacht (eingegrenzt)
werden kann, indem einmalig ein Vokabular mit dem Begriff der höheren Ebene
eingegeben wird, erfolgt eine Aufforderung, einen Ortsnamen sprachlich
einzugeben, bei dem es sich um einen Begriff mittlerer Ebene handelt,
und es wird darum gebeten, ein Vokabular auszusprechen, das zur
Ortsnamenskategorie gehört
(beispielsweise ein Vokabular „Tokio"). Dann werden Prozesse
wiederholt, die ähnlich
denjenigen im Falle des vorstehenden Oberbegriffs sind.
-
7 zeigt
einen grundlegenden Funktionsablauf, bei dem diese Spracherkennungsvorrichtung
ein Vokabular spracherkennungstechnisch bearbeitet, das sprachlich
eingegeben wird, und ein Befehlsvorgang, wie etwa Korrektur, durch
einen Benutzer als Antwort auf die Ausgabe des Erkennungsergebnisses
gefordert wird.
-
Zuerst
wird der Benutzer gefragt, ob ein Befehlsvorgang wie etwa Korrektur
durchgeführt
werden soll. Wird als Antwort ein Befehlsvorgang wie etwa Korrektur über Spracheingabe
oder das Bedienteil 5 angefordert, wird der Inhalt des
Befehls erkannt. Auf Grundlage der entsprechenden Steuerwörter WW
erfolgt ein Prozess zur Korrektur beispielsweise des zu korrigierenden
Objekts. Der in 7 gezeigte Prozess kann bei
jedem der Schritte des in 6 gezeigten
Spracherkennungsprozesses beliebig und jederzeit durchgeführt werden.
-
Als
Nächstes
werden konkretere Beispiele des Funktionsablaufs mit Bezug auf die 8 und 9 erläutert. Wenn
ein Benutzer einen Befehlsvorgang durchführt, um über Spracheingabe oder das
Bedienteil 5 eine Spracherkennung anlaufen zu lassen, wird
der Prozess bei den Schritten S100 und danach unter der Steuerung
des Steuerteils 4 ausgelöst.
-
Beim
Schritt S100 gibt das Sprachausgabeteil 6 eine synthetische
Stimme „Bitte
Namen eingeben" in Übereinstimmung
mit Befehlen aus dem Steuerteil 4 aus, um einen Benutzer
aufzufordern (zu bitten), sprachlich den Namen eines gewünschten
Ziels (Institutionsnamen) einzugeben.
-
Wenn
der Benutzer als Antwort „Meguro
Station" als Institutionsname
sagt (Schritt S102), wird die Aussprache von „Meguro Station" erfasst, und das
Sprachanalyseteil 8 analysiert die Sprache, um Analysedaten Da
der Aussprache von „Meguro
Station" zu generieren
(Schritt S104).
-
Als
Nächstes
speichert das Analysedatenspeicherteil 10 die Analysedaten
Da des Institutionsnamens „Meguro
Station" (Schritt
S106). Weil nämlich
eine große
Menge an Erkennungsreferenzvokabularen dem Institutionsnamen entspricht,
werden die Analysedaten Da des Institutionsnamens so lange im Analysedatenspeicherteil 10 gespeichert,
bis der Vergleichsbereich im Erkennungswörterbuch durch Abschließen eines
Eingrenzungsvorgangs eingegrenzt ist, was später noch beschrieben wird.
-
Als
Nächstes
wird beim Schritt S108 ein Oberbegriffswörterbuch MJ im Erkennungswortspeicherteil 11 ausgewählt (festgelegt),
um das System in einen Zustand zu versetzen, in dem sprachliche Äußerungen
eingegeben werden können,
die sich auf einen Oberbegriff beziehen.
-
Als
Nächstes
beginnt beim Schritt S110 das Ähnlichkeitsberechnungsteil 9 mit
der Erkennung der eingegebenen sprachlichen Äußerungen auf Grundlage von
Erkennungsreferenzvokabularen Db im Oberbegriffswörterbuch
MJ. Das Sprachausgabeteil 6 gibt einen synthetischen Hörschall „Bitte
Oberbegriff eingeben" aus,
um den Benutzer aufzufordern, ein Vokabular auszusprechen, das zur
Oberbegriffskategorie gehört.
-
Wenn
der Benutzer als Antwort ein Vokabular ausspricht, das zur Oberbegriffskategorie
gehört
(zum Beispiel „Bahnhofsname"), wird die sprachliche Äußerung „Bahnhofsname" erfasst, und das
Sprachanalyseteil 8 extrahiert die Kennzeichen der Sprache,
um Analysedaten Da der sprachlichen Äußerung „Bahnhofsname" zu generieren. Die
Analysedaten Da werden an das Ähnlichkeitsberechnungsteil 9 geschickt
(Schritt S114). Die Analysedaten Da werden auch im Analysedatenspeicherteil 10 gespeichert.
-
Als
Nächstes
vergleicht beim Schritt S116 das Ähnlichkeitsberechnungsteil 9 die
Analysedaten Da der sprachlichen Äußerung „Bahnhofsname" mit Erkennungsreferenzvokabularen
Db im Oberbegriffswörterbuch MJ,
um ein oder mehrere Erkennungsreferenzvokabular/e auszuwählen, dessen
bzw. deren Ähnlichkeiten
größer sind
als ein Ähnlichkeitsbestimmungsstandard.
Dann werden die ausgewählten
Erkennungsreferenzvokabulare in der Reihenfolge größerer Ähnlichkeit
sortiert, als Erkennungsergebnisvokabulare Dc an das Steuerteil 4 geschickt
und in der in 3 gezeigten Oberbegriffsdatei
FJ gespeichert.
-
Dann
wird beim Schritt S118 von den in der Oberbegriffsdatei FJ gespeicherten
Erkennungsergebnisvokabularen Dc das Vokabular mit der größten Ähnlichkeit
(entspricht Dc11 in 3) an das Sprachausgabeteil 6 und
Anzeigeteil 7 geschickt, um das Erkennungsergebnis in Form
einer synthetischen Stimme und Zeichenanzeige, usw. zu präsentieren.
Handelt es sich bei dem Erkennungsergebnisvokabular Dc11 um „Bahnhofsname", wird dem Benutzer
ein synthetischer Hörschall „Es ist
ein Bahnhofsname, nicht wahr?" oder
dergleichen präsentiert.
-
Wenn
der Benutzer dann einen Befehlsvorgang „Bahnhofsname, Korrektur" ausführt, indem
er ihn als Antwort auf die Präsentation
ausspricht, wird der Korrekturbefehl beim Schritt S120 als „JA" erkannt, und der Ablauf
geht zum Schritt S122 über.
-
Weil
hier beim Schritt S120 der Befehlsvorgang „Bahnhofsname, Korrektur" durchgeführt wird,
wird ein Korrekturschema auf Grundlage der ersten Grundform von
in 4A gezeigten Steuerwörtern WW bestimmt. Mit anderen
Worten wird durch die Untersuchung der Steuerwörter WW mit einem Erkennungsergebnisvokabular
von „Bahnhofsname" als gesteuertem
Objektwort X und „Korrektur" als Steuerbefehlswort
Y bestimmt, dass „Bahnhofsname" durch ein anderes
Erkennungsreferenzvokabular auf derselben Ebene (d.h. ein anderes
Erkennungsreferenzvokabular, das zur selben Oberbegriffskategorie
gehört)
korrigiert (ersetzt) werden sollte.
-
Dann
wird beim Schritt S122 dem Erkennungswortspeicherteil 11 auf
Grundlage der Steuerwörter
WW ein Steuersignal C geliefert, um das Oberbegriffswörterbuch
MJ einzusetzen. Jedoch wird entsprechend dem gesteuerten Objektwort
X „Bahnhofsname" das Erkennungsreferenzvokabular
von „Bahnhofsname" im Oberbegriffswörterbuch
MJ ausgeschlossen, und es werden die übrigen Erkennungsreferenzvokabulare
zum Vergleich vorbereitet.
-
Als
Nächstes
werden die Prozesse der Schritte S110 bis S118 wiederholt. Dementsprechend
wird beim Schritt S110 eine synthetische Stimme „Bitte Oberbegriff eingeben" ausgegeben, um eine
Benutzereingabe anzufordern. Gibt der Benutzer beim Schritt S112
eine andere sprachliche Äußerung ein
als „Bahnhof", wird die eingegebene
Sprache bei den Schritten S114 und S116 analysiert und erkennungstechnisch
verarbeitet, und dem Steuerteil 4 werden neu bestimmte
Erkennungsergebnisvokabulare Dc bereitgestellt.
-
Dann
korrigiert (ersetzt) beim Schritt S118 das Steuerteil 4 alte
Erkennungsergebnisvokabulare Dc11, Dc12, usw., in der Oberbegriffsdatei
FJ durch neue Erkennungsergebnisvokabulare Dc11, Dc12, usw. Wenn der
Benutzer beispielsweise sprachlich „Krankenhausname" eingibt, werden
Erkennungsergebnisvokabulare Dc, die den „Krankenhausnamen" ähnlich sind, in der Oberbegriffsdatei
FJ gespeichert, und es wird der durch den Benutzer angegebene Korrekturprozess
durchgeführt
(Schritte S112 bis S118).
-
Wenn
statt dessen beim Schritt S120 ein einfacher Korrekturvorgang „Korrektur" durchgeführt wird, wird
ein Korrekturschema auf Grundlage der zweiten Grundform von wie
in 4B gezeigten Steuerwörtern WW bestimmt. Mit anderen
Worten wird auf Grundlage der Steuerwörter WW, die durch Hinzufügen des
Steuerbefehlsworts Y „Korrektur" zum ähnlichsten
Erkennungsreferenzvokabular Dc11 in der Oberbegriffsdatei FJ gebildet
werden, bestimmt, dass „Bahnhofsname" durch ein anderes
Erkennungsreferenzvokabular, das sich auf derselben Ebene befindet
(d.h. ein anderes Erkennungsreferenzvokabular, das zur Oberbegriffskategorie gehört) korrigiert
(ersetzt) werden sollte.
-
Somit
werden durch das Durchführen
der Schritte S110–S118
bis Schritt S122 die alten Erkennungsergebnisvokabulare Dc11, Dc12,
usw., in der Oberbegriffsdatei FJ durch neue Erkennungsergebnisvokabulare Dc11,
Dc12, usw. korrigiert (ersetzt).
-
Wenn
hier beim Schritt S120 der Befehlsvorgang, der den Steuerwörtern WW
der ersten oder zweiten Grundform entspricht, wiederholt wird, werden
alle der mehreren gesteuerten Objektwörter X (oder Erkennungsergebnisvokabulare
Dc), die Gegenstand der Korrekturbefehls waren, aus dem Oberbegriffswörterbuch MJ
ausgeschlossen, und es wird eine Ahnlichkeitsbestimmung auf Grundlage
der übrigen
Erkennungsreferenzvokabulare Db durchgeführt, die im Oberbegriffswörterbuch
MJ enthalten sind. Und zwar werden jedes Mal, wenn ein Korrekturbefehlsvorgang
erfolgt, die auszuschließenden
Erkennungsreferenzvokabulare erweitert, und der Bereich der zu vergleichenden
Erkennungsreferenzvokabulare Db wird weiter eingegrenzt. Dementsprechend
wird der Vergleichsbereich klein ausgelegt, und es wird eine schnelle
Korrekturverarbeitung möglich.
-
Wenn
darüber
hinaus beim Schritt S120 ein Befehlvorgang „Bahnhofsname, nächste in
Frage kommende Angabe",
der beispielsweise den in 5 gezeigten
Steuerwörtern
WW (Steuerwörtern
der ersten Grundform) von „~,
nächste
in Frage kommende Angabe" entspricht,
durchgeführt
wird, wird beim Schritt S118 das nächste in der Oberbegriffsdatei
FJ gespeicherte Erkennungsergebnisvokabular Dc12 präsentiert.
Wenn zum Beispiel das Erkennungsergebnisvokabular Dc12 „Krankenhausname" lautet, wird dem
Benutzer „Es
ist ein Krankenhausname, nicht wahr?" präsentiert.
-
Das
heißt,
im Unterschied zu den Fällen
der Befehlsvorgänge „Bahnhofsname,
Korrektur" und „Korrektur" wird über die
Schritte S122 und S110 bis S116 keine eigentliche Korrekturverarbeitung
durchgeführt, und
das Erkennungsergebnisvokabular Dc12 wird beim Schritt 118 als das ähnlichste
Erkennungsergebnisvokabular präsentiert.
-
Wenn
der Benutzer als Antwort auf diese Präsentation wieder einen Befehlsvorgang „~, nächste in Frage
kommende Angabe" ausführt, wird
das Erkennungsergebnisvokabular Dc13 präsentiert, bei dem es sich um
die nächste
in Frage kommende Angabe in der Oberbegriffsdatei FJ handelt. Wenn
ein Befehlsvorgang zur Abfrage der übernächsten in Frage kommenden Angabe
durchgeführt
wird, wird das Erkennungsergebnisvokabular Dc14 präsentiert,
bei dem es sich um die übernächste in
Frage kommende Angabe in der Oberbegriffsdatei FJ handelt. Somit
kann der Benutzer den Befehlsvorgang zur Abfrage der nächsten in
Frage kommenden Angabe so oft durchführen, wie Erkennungsergebnisvokabulare
Dc in der Oberbegriffsdatei FJ vorhanden sind.
-
Indem
der Benutzer einen solchen Befehlsvorgang zur Abfrage der nächsten in
Frage kommenden Angabe durchführt,
muss er nicht wirklich Oberbegriffsvokabulare sprachlich eingeben.
Darüber
hinaus ermöglicht
und beschleunigt dies die Korrekturverarbeitung in der Spracherkennungsvorrichtung.
-
Wenn
beim Schritt S210 ein Befehlsvorgang entsprechend den Steuerwörtern WW
für „nächste in
Frage kommende Angabe" (Steuerwörter der
zweiten Grundform) erfolgt, werden auch Korrekturprozesse durchgeführt, die
dem Fall „~,
nächste
in Frage kommende Angabe" entsprechen.
Das heißt,
wenn der Benutzer einfach nur „Nächste in
Frage kommende Angabe" sagt,
wird das Erkennungsergebnisvokabular Dc12, bei dem es sich um das
nächste
in Frage kommende, in der Oberbegriffsdatei FJ gespeicherte Vokabular
handelt, zum gesteuerten Objektwort, und dieses Erkennungsergebnisvokabular
Dc12 wird dann präsentiert.
Wenn der Befehlsvorgang zur Abfrage der nächsten in Frage kommenden Angabe
wieder durchgeführt
wird, wird die übernächste in
Frage kommende Angabe des Erkennungsergebnisvokabulars Dc13 zum
gesteuerten Objektwort und dieses Erkennungsergebnisvokabular Dc13
wird präsentiert.
Somit kann der Benutzer den Befehlsvorgang zur Abfrage der nächsten in
Frage kommenden Angabe so oft durchführen, wie Erkennungsergebnisvokabulare
Dc in der Oberbegriffsdatei FJ vorhanden sind.
-
Entsprechend
diesem Befehlsvorgang, bei dem nur „nächste in Frage kommende Angabe" gesagt wird, braucht
der Benutzer das Vokabular nicht auszusprechen, das dem gesteuerten
Objektwort X entspricht. Somit ist im Vergleich zum Befehlsvorgang „~, nächste Korrektur" eine schnellere
Korrektur möglich.
-
Auch
kann der Benutzer bestimmen, welcher Befehlsvorgang verwendet werden
soll. So verfügt
die Spracherkennungsvorrichtung über
eine hohe Flexibilität.
-
Wie
vorstehend erläutert,
kann der Benutzer durch die Befehlsvorgänge „~, Korrektur, „Korrektur", „~, nächste in
Frage kommende Angabe" und „nächste in
Frage kommende Angabe" mühelos Korrekturen
durchführen,
um einen gewünschten
Oberbe griff endgültig
festzulegen. Natürlich
erübrigt
es sich, zu erwähnen, dass
sich diese Befehlsvorgänge
auch gemischt, usw., durchführen
lassen.
-
Wenn
der Benutzer als Nächstes
bestimmt, dass das Oberbegriffsvokabular als Antwort auf das Erkennungsergebnis,
das bei Schritt S118 bestimmt wird, bestätigt wird, geht der Ablauf
vom Schritt S120 zum Prozess des Schritts S124 über.
-
Beim
Schritt S124 wird durch Untersuchen der Dateien FJ und FK bestimmt,
ob Eingrenzungsbedingungen zur Identifikation des Institutionsnamens
auf Grundlage der gespeicherten Erkennungsergebnisvokabulare erfüllt sind
oder nicht. Sind die Eingrenzungsbedingungen noch nicht zufriedenstellend
erfüllt,
geht der Ablauf zu Schritt S126 über,
um ein Ortsnamenswörterbuch
MK zu bestimmen, und es werden die Prozesse ab Schritt S110 wiederholt.
-
Wenn
zum Beispiel auch mit den bereits in der Oberbegriffsdatei FJ gespeicherten
Erkennungsergebnisvokabularen Dc11, Dc12, usw., keine Eingrenzung
erzielt werden kann, weil die Ortsnamensdatei FK das entsprechende
Erkennungsergebnisvokabular nicht erhalten hat, wird im Schritt
S124 bestimmt, dass die Eingrenzungsbedingungen noch nicht erfüllt wurden.
Dann wird beim Schritt S126 das Ortsnamenswörterbuch MK bestimmt, und der
Ablauf geht zum Prozess von Schritt S110 über.
-
Beim
Wiederholen der Prozesse ab Schritt S110, wird beispielsweise ein
synthetischer Hörschall „Bitte Bezirk
eingeben" beim Schritt
S110 ausgegeben, um den Benutzer aufzufordern, ein Vokabular auszusprechen,
das zur Ortsnamenskategorie gehört.
-
Wenn
der Benutzer als Antwort sprachlich einen Ortsnamen wie „Tokio", usw. eingibt (Schritt
S112), werden durch den Prozess bei den Schritten S114 bis S118
ein oder mehrere Erkennungsergebnisvokabular/e Dc21, Dc22, usw.,
welche die größten Ähnlichkeiten
haben, in der Ortsnamensdatei FK gespeichert.
-
Dann
wird beim Schritt S118 auf Grundlage der in der Oberbegriffsdatei
FJ und der Ortsnamensdatei FK gespeicherten Erkennungsergebnisvokabulare
ein synthetischer Hörschall „Es ist
ein Bahnhofsname in Tokio, nicht wahr?" präsentiert.
-
Wenn
der Benutzer als Antwort einen Befehlsvorgang durch Aussprechen
von „Tokio,
Korrektur" durchführt (S120),
wird das Erkennungsergebnisvokabular in der Ortsnamensdatei FK auf
Grundlage der Steuerwörter
WW „~,
Korrektur" auf ähnliche
Weise wie vorstehend korrigiert.
-
Hier
wird der Korrekturprozess im Hinblick auf den Ortsnamen auf eine ähnliche
Weise durchgeführt wie
der vorstehend beschriebene Korrekturprozess für den Oberbegriff. Deshalb
wird die ausführliche
Erklärung
hier weggelassen. Wenn der Benutzer beim Schritt S120 einfach nur „Korrektur" sagt, wird der Prozess zur
Korrektur des Erkennungsergebnisvokabulars Dc21 durchgeführt, bei
dem es sich um das letzte Erkennungsergebnis handelt.
-
Falls
darüber
hinaus der Benutzer „Tokio,
nächste
in Frage kommende Angabe" sagt,
wird das Erkennungsergebnisvokabular Dc22 präsentiert, bei dem es sich um
das nächste
in Frage kommende Vokabular in der Ortsnamensdatei FK handelt. Und
jedes Mal, wenn der Befehlsvorgang „~, nächste in Frage kommende Angabe" durchgeführt wird,
wird immer die übernächste in
Frage kommende Angabe präsentiert.
Auf diese Weise braucht der Benutzer, wenn der Befehlsvorgang „~, nächste in
Frage kommende Angabe" durchgeführt wird,
das Vokabular zur Korrektur nicht auszusprechen, wodurch eine einfache
Korrektur ermöglicht
wird.
-
Auch
wenn der Benutzer einfach nur „nächste in
Frage kommende Angabe" sagt,
wird der Korrekturprozess durchgeführt, indem das nächste in
Frage kommende Erkennungsergebnisvokabular präsentiert wird. Dementsprechend
braucht der Benutzer beim Befehlsvorgang „nächste in Frage kommende Angabe" das Vokabular zur
Korrektur nicht auszusprechen, wodurch eine einfache Korrektur ermöglicht wird.
-
Erfolgt
jedoch ein Befehlsvorgang, der eine Korrektur des Erkennungsergebnisvokabulars
in der Oberbegriffsdatei FJ befiehlt, nachdem die Erkennungsergebnisvokabulare
Dc, die sich auf den Oberbegriff und den Ortsnamen beziehen, in
der Oberbegriffsdatei FJ bzw. der Ortsnamensdatei FK gespeichert
wurden, wird der folgende Korrekturprozess durchgeführt.
-
Als
Erstes werden als Antwort auf entweder den Befehlsvorgang „~, Korrektur" oder „~, nächste in
Frage kommende Angabe" die
Erkennungsergebnisvokabulare Dc11, Dc12, usw., in der Oberbegriffsdatei
FJ korrigiert. Als Nächstes
werden die Erkennungsreferenzvokabulare Db im Ortsnamenswörterbuch
MJ, das sich unter dem Erkennungsergebnisvokabular Dc11 (Erkennungsergebnisvokabular
nach der Korrektur) befindet, das die größte Ähnlichkeit mit der Oberbegriffsdatei
FJ hat, ausgewählt
und festgelegt. Indem dann die Analysedaten Da' des Ortsnamens, die vorab im Analysedatenspeicherteil 10 gespeichert
wurden, mit den Erkennungsreferenzvokabularen Db verglichen werden,
die ausgewählt
und festgelegt wurden, werden neue Erkennungsergebnisvokabulare
Dc erhalten und in der Ortsnamensdatei FK gespeichert.
-
Dementsprechend
wird, wenn ein Befehlsvorgang zur Korrektur des Oberbegriffs durchgeführt wird, bei
dem es sich um einen Begriff höherer
Ebene handelt als der Ortsname, die Spracherkennung im Hinblick auf
den Ortsnamen unter Verwendung der Analysedaten Da', die bereits gespeichert
wurden, automatisch durchgeführt.
Somit kann der Benutzer die Erkennungsergebnisvokabulare Dc21, Dc22,
usw. in der Ortsnamensdatei FK korrigieren, ohne den Ortsnamen noch
einmal auszusprechen.
-
Hier
besteht sogar im Falle einer automatischen Korrektur der Erkennungsergebnisvokabulare
in der Ortsnamensdatei FK eine Möglichkeit,
dass Fehler in der Erkennung, usw. auftreten können. Die Spracherkennung wird
jedoch auf Grundlage der Analysedaten Da' wiederholt, die erhalten wurden, als
der Benutzer ein Vokabular aussprach, das zur Ortsnamenskategorie
gehörte.
Somit kann der vom Benutzer gewünschte
Ortsname mit einer hohen Wahrscheinlichkeit spracherkannt werden.
-
Indem
die Analysedaten Da',
die sprachlich eingegeben wurden, effizient genutzt werden, ist
es im Ergebnis möglich,
eine sehr schnelle Korrekturverarbeitung durchzuführen, wie
auch den Benutzern eine verbesserte Benutzerfreundlichkeit zu bieten.
-
Wenn
die Erkennungsergebnisvokabulare Dc, welche die Eingrenzungsbedingungen
erfüllen,
auf diese Weise im Erkennungsergebnisspeicherbereich MR aufbereitet
werden, wird die Bestimmung beim Schritt S124 zu „JA", und der Ablauf
geht zu dem in 9 gezeigten Prozess des Schritts
S127 über.
-
Schritt
S127 bestimmt das Institutionsnamenswörterbuch ML, das den Erkennungsergebnisvokabularen
Dc entspricht, welche die Eingrenzungsbedingungen erfüllen und
in der Oberbegriffsdatei FJ und der Ortsnamensdatei FK gespeichert
sind, die in 3 gezeigt sind. Wenn zum Beispiel
die Erkennungsergebnisvokabulare Dc11 und Dc21, welche die Eingrenzungsbedingungen
erfüllen, „Bahnhofsname" bzw. „Tokio" lauten, werden die
möglichen
Wörterbücher für den Institutionsnamen
auf das Institutionsnamenswörterbuch
ML der „Liste
von Bahnhofsnamen" eingegrenzt,
die sich, wie in 2 gezeigt, unter „Bahnhofsname
in Tokio" befindet.
Auch wenn der Befehlsvorgang „~,
nächste
in Frage kommende Angabe" durchgeführt wird,
erfolgt ein Eingrenzungsvorgang auf Grundlage der Erkennungsergebnisvokabulare,
die durch die entsprechende nächste
in Frage kommende Angabe bestimmt werden.
-
Als
Nächstes
werden beim Schritt S128 die Analysedaten Da' des Institutionsnamens („Meguro
Station" zum Beispiel),
die bereits im Analysedatenspeicherteil 10 gespeichert
wurden, in das Ähnlichkeitsberechnungsteil 9 eingegeben,
und die Ähnlichkeiten
zwischen den Analysedaten Da' und
den Erkennungsreferenzvokabularen Db im Institutionsnamenswörterbuch
ML der „Liste
von Bahnhofsnamen" werden
bestimmt. Dann werden die Erkennungsergebnisvokabulare Dc mit den
größten Ähnlichkeiten
in der Institutionsnamensdatei FL hinterlegt (gespeichert).
-
Als
Nächstes
wird beim Schritt S130 das ähnlichste
Erkennungsergebnisvokabular in der Institutionsnamensdatei FL (Dc31
in 3) über
das Sprachausgabeteil 6 ausgegeben und/oder am Anzeigeteil 7 angezeigt
Wenn sich zum Beispiel herausstellt, dass es sich beim Erkennungsergebnisvokabular
Dc31 um „Meguro Station" handelt, wird das
endgültige
Bestimmungsergebnis durch eine synthetische Stimme „Es ist
Meguro Station, nicht wahr?" oder
dergleichen präsentiert.
-
Dann
geht der Ablauf zum Prozess beim Schritt S132 und den nachfolgenden
Schritten über,
wobei es sich um eine Bestätigungsroutine
handelt, die den Benutzer auffordert, das endgültige Bestimmungsergebnis zu
bestätigen.
-
Zuerst
ertönt
beim Schritt S132 eine synthetische Stimme „Bitte Befehl eingeben", um den Benutzer zu
fragen, ob das endgültige
Erkennungsergebnis weiter korrigiert werden sollte.
-
Wenn
der Benutzer als Antwort bestimmt, dass eine Korrektur des Oberbegriffs
oder Ortsnamens notwendig ist und entweder den Befehlsvorgang „~, Korrektur" oder „~, nächste in
Frage kommende Angabe" durchführt, erfolgt
eine Erkennung der Analysedaten Da, die der Spracheingabe entsprechen.
Dann wird beim Schritt S134 bestimmt, dass der Befehlsvorgang zu
Korrektur auf Grundlage der Steuerwörter WW durchgeführt wurde
(„JA"), und der Ablauf
geht zum Schritt S136 über.
Wenn hier ein Befehl wie „Korrektur", usw., über das
Bedienteil 5 und nicht über
Spracheingabe eingegeben wird, geht der Ablauf entsprechend zum
Schritt S136 über.
-
Beim
Schritt S136 wird ein Erkennungswörterbuch im Erkennungswortspeicherteil 11,
das dem Korrekturbefehl entspricht, auf ähnliche Weise wie im Prozess
des Schritts S122 (siehe 8) ausgewählt und festgelegt. Hier wird
das Erkennungsreferenzvokabular, das korrigiert werden soll, im
ausgewählten
Erkennungswörterbuch
ausgeschlossen. Dann wird der Prozess beim Schritt S110 und den
nachfolgenden Schritten, wie in 8 gezeigt
ist, wiederholt, um die Erkennungsergebnisvokabulare in der Oberbegriffsdatei
FJ oder der Ortsnamensdatei FK auf neue Erkennungsergebnisvokabulare
zu berichtigen.
-
Da
die Korrekturverarbeitung beim Schritt S110 und den nachfolgenden
Schritten vorstehend erläutert wurde,
unterbleibt deren Erklärung
an dieser Stelle.
-
Wenn
der Befehlsvorgang zur Korrektur des Oberbegriffs oder Ortsnamens
beim Schritt S134 nicht durchgeführt
wird und ein Befehlsvorgang zur Korrektur von „Institutionsname" erfolgt, bestimmt
Schritt S138, dass der Befehlsvorgang zur Korrektur von „Institutionsname" auf Grundlage der
entsprechenden Steuerwörter
WW durchgeführt
wurde („JA"), und der Ablauf
geht zum Schritt S142 über.
-
Ist
hingegen keiner der Befehlsvorgänge
für Oberbegriff,
Ortsnamen und Institutionsnamen durchgeführt worden, und ein anderer
Befehlsvorgang als Korrekturbefehl, beispielsweise „Routensuche", durchgeführt worden,
bestimmt Schritt S138, dass es keine Korrektur gab (bestimmt „NEIN"), und der Ablauf
geht zum Schritt S140 über.
-
Sobald
der Ablauf zum Schritt S140 übergeht,
beginnt der durch den Befehlsvorgang angewiesene Vorgang. Wenn der
Befehlsvorgang „Routensuche" wie im Fall des
vorstehenden Beispiels auf Grundlage der Steuerwörter WW durchgeführt wurde,
die diesem „Befehl" entsprechen, wird
das auf diese Weise bestätigte Erkennungsergebnisvokabular
in der Datei FL extrahiert; es wird ein Fahrtweg zu dem Ziel gesucht,
das dem Institutionsnamen des Erkennungsergebnisvokabulars Dc entspricht;
und der gesuchte Fahrtweg wird über das
Anzeigeteil 7 auf einer Karte angezeigt. Dann ist die Spracherkennungsverarbeitung
beendet, und das System wartet auf eine Anweisung, um mit einer
anderen Spracherkennung zu beginnen.
-
Erfolgt
jedoch beim Schritt S138 ein Korrekturbefehlsvorgang für „Institutionsname", d.h. „~, Korrektur" oder „Korrektur", geht der Ablauf
zu Schritt S142 über,
und es ertönt
ein synthetischer Hörschall „Bitte
Institutionsnamen eingeben",
um den Benutzer aufzufordern, ein neues Vokabular einzugeben, das
zur Institutionsnamenskategorie gehört.
-
Wenn
der Benutzer als Antwort einen neuen Institutionsnamen ausspricht
(Schritt S144), werden die entsprechenden Analysedaten Da generiert
(Schritt S146) und im Analysedatenspeicherteil 10 gespeichert (Schritt
S148). Dann kehrt der Ablauf zum Prozess von Schritt S127 zurück.
-
Beim
Schritt S127 erfolgt eine Eingrenzung auf Grundlage der Erkennungsergebnisvokabulare,
die bestätigt
und in der Oberbegriffsdatei FJ und der Ortsnamensdatei FK gespeichert
wurden, um ein Institutionsnamenswörterbuch ML im Erkennungswortspeicherteil 11 festzulegen.
Hier wird das Erkennungsreferenzvokabular, das zu korrigieren angewiesen
wurde, beim Festlegen des Wörterbuchs
ausgeschlossen.
-
Beim
Schritt S128 werden dann die Analysedaten Da' des Institutionsnamens, die im Analysedatenspeicherteil 10 gespeichert
wurden, mit Erkennungsreferenzvokabularen Db im Institutionsnamenswörterbuch ML
verglichen, um die Ähnlichkeiten
zu bestimmen, und die Erkennungsergebnisvokabulare Dc mit den größten Ähnlichkeiten
werden in der Institutionsnamensdatei FL gespeichert.
-
Wenn
der Befehlsvorgang zur Korrektur von „Institutionsname" durchgeführt wird,
wird auf diese Weise das Institutionsnamenswörterbuch ML auf Grundlage der
Erkennungsergebnisvokabulare Dc ausgewählt und festgelegt, die bereits
in der Oberbegriffsdatei FJ und der Ortsnamensdatei FK gespeichert
wurden, d.h. auf Grundlage der Erkennungsergebnisvokabulare Dc,
welche die Eingrenzungsbedingungen erfüllen. Dementsprechend wird
ein schneller Korrekturvorgang im Vergleich dazu möglich, dass
der Oberbegriff und der Ortsname aus dem Arbeitsbereich rückgesetzt
(korrigiert oder verändert)
werden. Im Ergebnis ist der Benutzer nicht gezwungen, mühsame Vorgänge durchzuführen, wodurch
die Benutzerfreundlichkeit verbessert wird.
-
Im
Stand der Technik müssen
ein Oberbegriffs- und ein Ortsname, bei denen es sich um Begriffe
höherer
Ebene handelt, neu eingegeben werden, wenn „Institutionsname" korrigiert werden
soll. Die vorliegenden Erfindung stellt jedoch eine stark verbesserte
Benutzerfreundlichkeit bereit. Auch wird bei der vorliegenden Erfindung
die Korrekturverarbeitung auf eine Weise durchgeführt, dass
eine echte Eingrenzungsverarbeitung erfolgt, wodurch die Spracherkennungsrate
verbessert wird.
-
Wenn
darüber
hinaus der Benutzer einen Befehlsvorgang „nächste in Frage kommende Angabe" oder „~, nächste in
Frage kommende Angabe" zur
Korrektur des Institutionsnamens durchführt, wird bei den Schritten
S142 bis S148 bestimmt, ob es eine nächste in Frage kommende Angabe
des Erkennungsergebnisvokabulars in der Institutionsnamensdatei
FL gibt oder nicht. Gibt es die nächste in Frage kommende Angabe,
erfolgt der Prozess von Schritt S127 unter Verwendung des nächsten in
Frage kommenden Erkennungsergebnisvokabulars als Erkennungsergebnis.
Dementsprechend erfolgt die Korrekturverarbeitung so, dass eine
echte Eingrenzungsverarbeitung ordnungsgemäß durchgeführt wird, ohne dass noch einmal
ein Oberbegriff und ein Institutionsname sprachlich eingegeben werden,
bei denen es sich um Begriffe höherer
Ebene handelt. Auch ist der Benutzer nicht gezwungen, mühsame Vorgänge durchzuführen, wodurch
die Benutzerfreundlichkeit verbessert wird.
-
Wie
vorstehend erläutert,
ist es nach der vorliegenden bevorzugten Ausführungsform möglich, eine Spracherkennung
in Übereinstimmung
mit den kennzeichnenden Angaben der gewollten kennzeichnenden Angaben
des Benutzers durchzuführen
und einfache und schnelle Korrekturvorgänge (Korrekturbefehlsvorgang)
bereitzustellen, ohne dass der Benutzer dabei gezwungen ist, mühsame Vorgänge durchzuführen.
-
Als
Nächstes
wird mit Bezug auf die Ablaufdiagramme der 10 bis 12 ein konkreteres Beispiel für einen
Korrekturverarbeitungsvorgang erläutert, wenn ein Befehlsvorgang „nächste in
Frage kommende Angabe" oder „~, nächste in
Frage kommende Angabe" durchgeführt wird.
-
In
den 10 und 12 sind die
Prozesse, die denjenigen der 8 und 9 entsprechen,
mit denselben Schrittnummern bezeichnet.
-
Hier
jedoch sind mehr Einzelheiten für
den Prozess wiedergegeben, bei dem S120 bestimmt, dass der Benutzer
eine Korrektur anforderte ("JA" bestimmt) und dann
die Prozesse des Schritts S122 oder S118 von 10 über einen
Knoten D oder E ausgelöst
werden, nachdem die Prozesse von 12A erfolgt
sind. Darüber
hinaus sind mehr Einzelheiten für
den Prozess wiedergegeben, bei dem Schritt S134 bestimmt, dass der Benutzer
eine Korrektur anforderte („JA" bestimmt) und dann
der Prozess des Schritts S136 oder S127 über einen Knoten D' oder A ausgelöst wird,
nachdem die Prozesse von 12B erfolgt
sind.
-
Das
heißt,
beim Schritt S204 und Schritt S304 von 12A bzw. 12B erfolgt eine Bestimmung der nächsten in
Frage kommenden Angabe des Erkennungsergebnisvokabulars in Übereinstimmung
mit dem Befehlsvorgang „nächste in
Frage kommende Angabe" oder „~, nächste in
Frage kommende Angabe".
-
Zuerst
geht der Ablauf, wenn der Befehlsvorgang zur Korrektur beim Schritt
S120 von 10 durchgeführt wird, zu dem in 12A gezeigten Schritt S200 über.
-
Beim
Schritt S200 erfolgt eine Bestimmung, ob der einfache Befehlsvorgang
durch Aussprechen von „nächste in
Frage kommende Angabe" oder
der Befehlsvorgang „~,
nächste
in Frage kommende Angabe" durchgeführt wurde.
Wenn einer dieser beiden Befehlsvorgänge zur Abfrage der nächsten in
Frage kommenden Angabe durchgeführt
wird, bestimmt Schritt S202 auf Grundlage von Steuerwörtern WW,
ob die nächste in
Frage kommende Angabe des Erkennungsergebnisvokabulars in der bezeichneten
Datei (mit FJ, FK und FL bezeichneten Datei) vorkommt.
-
Gibt
es die nächste
in Frage kommende Angabe des Erkennungsergebnisvokabulars, bestimmt
Schritt S204 die nächste
in Frage kommende Angabe als das Erkennungsergebnis. Dann geht der
Ablauf über
einen Knoten E zum Schritt S118 von 10 über, und
das Erkennungsergebnisvokabular wird als Erkennungsergebnis präsentiert.
-
Dementsprechend
wird der Prozess von Schritt S118, wenn der Befehlsvorgang „nächste in
Frage kommende Angabe" oder „~, nächste in
Frage kommende Angabe" erfolgt,
direkt über
den Knoten E ausgeführt,
ohne die Prozesse der Schritte S110 bis S116 ablaufen zu lassen,
wodurch eine Vereinfachung des Prozesses realisiert wird.
-
Falls
hingegen entweder Schritt S200 oder S202 von 12A „NEIN" rückmeldet,
geht der Prozess über
den Knoten D zum Schritt S122 über.
Dies ermöglicht
es dem Benutzer, einen anderen Befehlsvorgangs als „nächste in
Frage kommende Angabe" oder „~, nächste in
Frage kommende Angabe" durchzuführen, z.
B. einen Befehlsvorgang „Korrektur" oder „~, Korrektur", welcher eine Korrektur
anweist.
-
Wenn
als Nächstes
beim Schritt S138 von 11 bestimmt wird, dass ein Befehlsvorgang „nächste in
Frage kommende Angabe" oder „~, nächste in
Frage kommende Angabe" zur
Korrektur des Institutionsnamens erfolgt (Bestimmung „JA"), werden die Prozesse
der Schritte S142 bis S148 durchgeführt und die Prozesse von S127
und die anschließenden
Prozesse wiederholt. Wird jedoch der Befehl zur Korrektur des Institutionsnamens
durch den Befehlsvorgang „nächste in
Frage kommende Angabe" oder „~, nächste in
Frage kommende Angabe" gegeben,
werden bei den Prozessen der Schritte S142 bis S149 die Prozesse
von 12B durchgeführt und die Prozesse von Schritt
S127 und die anschließenden
Prozesse wiederholt.
-
Auf
diese Weise wird, wenn der Befehlsvorgang „nächste in Frage kommende Angabe" oder „~, nächste in
Frage kommende Angabe" erfolgt,
die nächste
in Frage kommende Angabe für
das Erkennungsergebnisvokabular bestimmt, indem die Prozesse von 12A oder 12B durchgeführt werden.
-
Wie
vorstehend erläutert,
besitzt die vorliegende bevorzugte Ausführungsform insofern eine exzellente Funktionalität, als Benutzer über den
Befehlsvorgang „nächste in
Frage kommende Angabe" und „~, nächste in
Frage kommende Angabe" stark
vereinfachte und schnelle Korrekturbefehle erteilen können. Bei
mehreren Erkennungsergebnisvokabularen Dc, die im Erkennungsergebnisspeicherbereich
MR gespeichert sind, handelt es sich um solche Erkennungsergebnisvokabulare,
die gleich oder ähnlich
Vokabularen sind, die zu den Kategorien Institutionsname, Oberbegriff
und Ortsname gehören.
Selbst wenn sich herausstellt, dass das Erkennungsergebnisvokabular,
das die größte Ähnlichkeit
hat, fehlerhaft erkannt wurde, besteht somit eine starke Möglichkeit,
dass das Erkennungsergebnisvokabular, das gleich dem Vokabular ist,
das durch den Benutzer ausgesprochen wurde, in den übrigen (anschließenden in
Frage kommenden) Erkennungsergebnisvokabularen vorkommt. Deswegen
ermöglicht
der Befehlsvorgang des Benutzers „nächste in Frage kommende Angabe" oder „~, nächste in
Frage kommende Angabe" zum
Anweisen der Korrektur eine durch hohe Wahrscheinlichkeit geprägte Bestimmung
des gewünschten
Erkennungsergebnisvokabulars mit einfachen Korrekturvorgängen.
-
Hier
werden anhand der vorstehenden bevorzugten Ausführungsformen die Fälle als
typisches Beispiel erläutert,
bei denen die vorliegende Spracherkennungsvorrichtung den Benutzer
auffordert, ein Vokabular auszusprechen, und der Benutzer dann als
Antwort nach und nach ein Vokabular sprachlich eingibt. Die vorliegende
Erfindung ist jedoch nicht darauf beschränkt. Insbesondere kann die
Spracherkennungsvorrichtung den Benutzer auffordern, mehrere Vokabulare
auszusprechen, und der Benutzer kann mehrere Vokabulare in Form
einer durchgehenden Sprache sprachlich eingeben.
-
Das
heißt,
wenn die Spracherkennungsvorrichtung mehrere Vokabulare abfragt,
legt sie die Erkennungswörterbücher unter
den Erkennungswörterbüchern im
Erkennungswortspeicherteil 11 fest, die den Attributen
(Kategorien) dieser Vokabulare entsprechen. Dann können durch
Vergleichen der Erkennungsreferenzvokabulare Db in den ausgewählten Erkennungswörterbüchern mit
den mehreren Analysedaten Da und durch Einholen von Anweisungen
und Befehlen vom Benutzer über
Steuerwörter
WW, die mehreren Vokabulare auf einmal auf Grundlage der Steuerwörter WW
erhalten werden.
-
Und
zwar können,
wie in den 4C bis 4E gezeigt
ist, die Steuerwörter
WW hergestellt werden, indem mehrere Grundformen verbunden werden,
wenn mehrere Vokabulare sprachlich eingegeben werden, wobei diese
mehreren Vokabulare zu einem Satz von Steuerwörtern WW vereint werden können. Somit
können die
durch den Benutzer angewiesenen Prozesse kollektiv verarbeitet oder
auf Grundlage der Steuerwörter WW
abschnittsweise verarbeitet werden. Weil die Steuerwörter WW
genutzt werden, um die Spracheingabe von Benutzern einzuholen, wird
es auf diese Weise möglich,
eine hochflexible Verarbeitung zu bieten.
-
Darüber hinaus
sind die Vokabulare des wie vorstehend erläuternden Steuerbefehlsworts
Y lediglich beispielhaft. Es sind auch andere Vokabulare möglich. Zum
Beispiel können
auch Vokabulare wie „falsch", „richtig", usw. anstelle von „Korrektur" verwendet werden,
und Vokabulare wie „Weiter", „in Frage
kommende Angabe", „Änderung
in Frage kommende Angabe",
usw. können
anstelle von „nächste in
Frage kommende Angabe" verwendet
werden.
-
Wie
vorstehend erläutert,
werden nach der vorliegenden Erfindung Steuerwörter vorab gespeichert, die
den jeweiligen Verarbeitungsfunktionen entsprechen; und wenn diese
eine Verarbeitungsfunktion präsentiert
wird, und Spracheingabeinformation mit Befehlsinformation, die diese
eine Verarbeitungsfunktion bezeichnet, von außen als Antwort auf die Präsentation
eingegeben wird, wird die Spracheingabeinformation erkennungstechnisch
verarbeitet, und die Verarbeitungsfunktion erfolgt in Übereinstimmung
mit den Steuerwörtern, die
der Befehlsinformation entsprechen. Indem dementsprechend die Steuerwörter vorab
so festgelegt werden, dass sie verschiedene Verarbeitungsfunktionen
haben, wird es möglich,
verschiedene Prozesse prompt und genau durchzuführen. Im Ergebnis werden überlegene
Wirkungen bei der Durchführung
von Dialogvorgängen
erzielt.
-
Während das,
was beschrieben wurde, als die gegenwärtig bevorzugten Ausführungsformen
der vorliegenden Erfindung erachtet werden, sollte klar sein, dass
verschiedene Abänderungen
daran vorgenommen werden können
und die beigefügten
Ansprüchen
alle solchen Abänderungen
als in den Rahmen der Erfindung fallend abdecken sollen.
-