-
Die
vorliegende Erfindung betrifft eine Technik zur Spracherkennung,
welche verwendet werden kann, um mittels Sprache beispielsweise
ein Reiseziel in ein Navigationssystem einzugeben.
-
Ein
Spracherkennungssystem liefert ein Erkennungsergebnis auf der Grundlage
des höheren Übereinstimmungsgrads
durch Vergleichen der Spracheingabe bzw. eingegebener Sprachbestandteile
mit einer Mehrzahl von möglichen
Mustern (nachstehend ”Musterkandidaten” genannt)
als den vorab gespeicherten Vergleichsobjekten. Es wird beispielsweise
zum Eingeben eines Ortsnamens als ein festzulegendes Ziel in ein
Navigationssystem mittels Sprache durch einen Benutzer verwendet.
Insbesondere wenn ein Fahrer ein mobiles Navigationssystem verwendet,
während
er ein Fahrzeug führt,
ist das Spracheingabeverfahren sehr sicher und effizient, da dieses
Verfahren keine Manipulationen wie eine Betätigung von Bedienelementen
oder Beobachtung einer Anzeige durch den Fahrer erfordert. Es sei
darauf hingewiesen, daß der
Begriff Ort hierin in seiner allgemeinsten Form, also im Sinne eines
Standorts oder einer geographischen Lage verwendet wird.
-
Um
solche Funktionen zu erfüllen,
ist es wichtig, einen Ort leicht mit hinreichender Genauigkeit zu
bestimmen. In der Praxis muß es
möglich sein,
den Ort bis zu der Ebene von Stadtteil (Town) oder Straße (Street)
(kleinste Gebietseinheit) unter dem Städtenamen einzugeben, wobei
der die Ebene von Stadt (City) oder Präfektur bzw. Amtsbezirk (Prefecture) überschritten
wird. Darüber
hinaus ist es, wenn der Benutzer zum Beispiel ein Ziel wie ”Showa-Town,
Kariya-City, Aichi-Prefecture” festlegen möchte, sehr
mühsam,
wenn vom Benutzer erwartet wird, das Ziel getrennt für jede Ebene
von Stadtteil, Stadt und Amtsbezirk wie etwa ”Showa-Town”, ”Kariya-City” und ”Aichi-Prefecture” auszusprechen.
Daher ist es für
den Benutzer vorzuziehen, die Abfolge von Wörtern der Adresse kontinuierlich
eingeben zu können
(kontinuierliche Eingabe).
-
In
dem Fall einer Adresse eines Orts in Japan wird die Adresse zuerst
verzweigt, und zwar in dem Ausdruck im japanischen Stil, abhängig von
der Hauptstadt (Metropolis) Tokio, dem Bezirk Hokkaido, den Kreisen
Osaka-Fu und Kyoto-Fu sowie 43 Präfekturen, welche die höchste hierarchische
Ebene darstellen, und die Verzweigungsfaktoren bzw. Verzweigungsgrade
steigen in der Reihenfolge der Spracheingabe an, etwa zu Stadt und/oder
Stadtteil und/oder Hausnummer. Daher ist es vorteilhaft, die Spracherkennung
unter Verwendung eines Erkennungswörterbuchs mit einer Baumstruktur
für solche Erkennungswörter durchzuführen. 6 zeigt
ein Beispiel eines Wörterbuchs
mit Baumstruktur für
die Erkennung von Adressen in Japan. In diesem Fall wird eine Adresse
zuerst, wie zuvor erläutert,
in Abhängigkeit
von der höchsten
hierarchischen Ebene (z. B. Aichi-Prefecture, Gifu-Prefecture, etc.)
verzweigt, dann für
jede der höchsten
hierarchischen Ebenen in Abhängigkeit
von einer Stadt (Stadtteil, Dorf) verzweigt, und dann für jede Stadt
in Abhängigkeit
von einem Stadtteil verzweigt, u. s. w. Insbesondere wenn ein Ausdruck
einer Adresse in japanischem Stil in der Reihenfolge der Spracheingabe
betrachtet wird, steigt die Zahl der Verzweigungspunkte an, wenn
die Adreßebene
niedriger wird.
-
In
vielen anderen Ländern
der Welt jedoch, zum Beispiel in den Vereinigten Staaten und verschiedenen
Europäischen
Ländern,
beginnt eine Adresse oft mit einer Hausnummer als der niedrigsten
hierarchischen Ebene und wird dann in der umgekehrten Reihenfolge
im Vergleich zum Ausdruck im japanischen Stil ausgedrückt, also
etwa: Name der Straße → Name der
Stadt → Name
des Bundesstaats. Wenn daher ein Erkennungswörterbuch mit Baumstruktur für eine solche
Erkennung der Adressen erzeugt wird, wird das Erkennungswörterbuch
in der sogenannten ”umgekehrten
Baumstruktur” ausgebildet,
in welcher die Anzahl von zu kombinierenden Verzweigungspunkten
abnimmt, wenn die Adreßebene
höher wird.
Demzufolge wird eine Adresse von der ersten hierarchischen Ebene
(höchsten
hierarchischen Ebene) an vielen Verzweigungspunkten zu der nächsten Ebene
verzweigt (zum Beispiel wachsen in den Vereinigten Staaten solche
Verzweigungspunkte von einigen Hunderttausend auf etwa mehrere Millionen
an). Daher ist es wahrscheinlich, daß der Abgleichprozeß stärker in
Anspruch genommen wird und dadurch die Erkennungszeit ansteigt.
-
Um
den Prozeß zu
entlasten, ist darüber
hinaus bekannt, einen Prozeß eines ”Eliminierens
von Zweigen” bzw. ”Entfernens
von Zweigen” bzw. ”Abschneidens
von Zweigen” (cut
of branch) einzuführen,
um Kandidaten für
die Erkennung in dem Wörterbuch
mit Baumstruktur einzugrenzen. Allerdings wird bei Anwendung eines
solchen ”Eliminierens
von Zweigen” auf
das Wörterbuch
mit umgekehrter Baumstruktur die Wahrscheinlichkeit, den Zweig zu eliminieren,
in welchem das Wort der korrekten Antwort enthalten ist, tatsächlich hoch.
Daher kann das Eliminieren von Zweigen nicht erfolgreich sein, was zu
einer schlechten Erkennungsgüte
führt.
Demgemäß war es,
nachdem es keinen besonderen Vorteil für die Erzeugung des Erkennungswörterbuchs
mit Baumstruktur gibt, schwierig, die Technik der kontinuierlichen
Spracherkennung auf eine solche Spracheingabe mit einer umgekehrten
Baustruktur anzuwenden.
-
Dieses
Problem ergibt sich, zusätzlich
zu dem Fall von Adressen, in jedem Erkennungswörterbuch mit umgekehrter Baumstruktur.
-
Aus
der
EP 0 768 638 A2 sind
eine Vorrichtung und Verfahren zur Spracherkennung und Navigation
bekannt, wobei insbesondere auf die Eigenart der Aussprache japanischer
Schriftzeichen abgezielt wird. So kann beispielsweise ein Ortsname
als ”xx machi” oder als ”xx cho” ausgesprochen
werden. Ein Rückwärtserkenungsprozess
oder die Verwendung einer rückwärtsgerichteten
Baumstruktur zur Erkennung von Adressen sind hingegen aus der Druckschrift
nicht bekannt.
-
Die
Erfindung stellt sich die Aufgabe, die vorgenannten Probleme des
Stands der Technik zu lösen.
Die Aufgabe wird mit Hilfe der Merkmale der unabhängigen Patentansprüche gelöst. Insbesondere wird
die Aufgabe durch ein Spracherkennungssystem nach Anspruch 1, ein
Computerprogramm nach Anspruch 15, ein Navigationssystem nach Anspruch 16
und und ein Kollationsverfahren nach Anspruch 17 gelöst. Vorteilhafte
Weiterbildungen der Erfindung sind Gegenstand der Unteransprüche.
-
Die
vorliegende Erfindung löst
die vorgenannten Probleme und verbessert die Erkennungsgüte der Spracheingabe
mit der umgekehrten Baumstruktur, wobei eine Mehrzahl von Wörtern in
Abhängigkeit
von der Eingabesequenz, zum Beispiel für eine Adresse, wie sie in
den Vereinigten Staaten oder in Europäischen Ländern ausgedrückt wird,
von der niedrigen hierarchischen Ebene zu der hohen hierarchischen
Ebene gekoppelt wird.
-
Die
Erkennungseinrichtung der vorliegenden Erfindung führt den
umgekehrten Erkennungsprozeß unter
Verwendung des Erkennungswörterbuchs
mit umgekehrter Baumstruktur aus, um eine Abfolge von Spracheingaben
von dem Sprachbestandteil bzw. -element, dessen Eingabezeit neu
ist, zu dem Sprachbestandteil, dessen Eingabezeit alt ist, umgekehrt
bzw. in umgekehrter Reihenfolge zu erkennen. Dadurch kann das Wörterbuch
mit umgekehrter Baumstruktur erfolgreich als das gewöhnliche
Erkennungswörterbuch
mit vorwärtsgerichteter,
also herkömmlicher
Baustruktur, welches von der höheren hierarchischen
Ebene aus startet, verwendet werden. Demzufolge können Verbesserungen
in der Erkennungsgüte
in der Abfolge einer Spracheingabe mit umgekehrter Baumstruktur
erwartet werden.
-
Die
vorgenannten und andere Aufgaben, Merkmale und Vorteile der vorliegenden
Erfindung werden aus der nachstehenden genauen Beschreibung, welche
mit Bezug auf die begleitenden Zeichnungen angefertigt wurde, deutlicher
werden. In den Zeichnungen:
-
ist 1A ein
Blockdiagramm eines Systems mit einem Spracherkennungssystem einer
Ausführungsform
der vorliegenden Erfindung;
-
ist 1B ein
Blockdiagramm eines Spracherkennungsabschnitts;
-
ist 2 ein
erläuterndes
Diagramm eines Beispiels eines geographischen Wörterbuchs in den Vereinigten
Staaten (USA) mit Einführung
eines Ausdrucksverfahrens mit umgekehrter Baumstruktur;
-
ist 3A ein
erläuterndes
Diagramm des geographischen Wörterbuchs
von 2, welches unter Verwendung eines Standardmusters
in Phonemeinheiten erzeugt wurde;
-
ist 3B ein
praktisches Beispiel von 3A;
-
ist 4 ein
Flußdiagramm,
welches den Prozeß in
Bezug auf die Spracherkennung in dem Spracherkennungssystem zeigt;
-
ist 5A ein
erläuterndes
Diagramm einer Struktur einer anderen Ausführungsform der vorliegenden
Erfindung;
-
ist 5B ein
Flußdiagramm
des Ablaufs der anderen Ausführungsform
der vorliegenden Erfindung; und
-
ist 6 ein
erläuterndes
Diagramm eines Beispiels eines Erkennungswörterbuchs nach dem Stand der
Technik, welches nach der herkömmlichen Baumstruktur
angelegt ist.
-
Mit
Bezug auf 1A ist ein Spracherkennungssystem 1 dieser
Ausführungsform
in einem Fahrzeug (Kraftfahrzeug) vorhanden, um ein Navigationsgerät 15,
welches ebenfalls in dem Fahrzeug vorhanden ist, durch eine Sprachkommunikation
mit einem Insassen (im Wesentlichen einem Fahrer) des Fahrzeugs
zu steuern.
-
Das
Spracherkennungssystem ist weiter mit einer Schalt- bzw. Schaltereinrichtung 3 zum
Eingeben verschiedenen Befehle und Daten durch externe Manipulationen
hiervon des Benutzers, einem Anzeigegerät 5 zum Anzeigen von
Bildern, einem Mikrophon 7 zum Eingeben von Sprachbestandteilen
bzw. -elementen, einem Sprechschalter 9, welcher zum Eingeben
von Sprachbestandteilen zu betätigen
ist, und einem Lautsprecher 11 zum Ausgeben von Sprachbestandteilen
verbunden.
-
Das
Navigationsgerät 15 dient
dem Erfassen bzw. Erkennen der gegenwärtigen Position (Ort) des Fahrzeugs
oder dem Ausführen
der Leit- bzw. Zielführungsfunktion
und ist mit einer an sich bekannten GPS-Vorrichtung zum Erfassen
bzw. Erkennen der gegenwärtigen
Position des Fahrzeugs, einer CD-ROM, welche Daten zur Zielführung wie
etwa Kartendaten, Ortsnamensdaten und Einrichtungs- bzw. Gebäudedaten
speichert, einem CD-ROM-Laufwerk zum Lesen der Daten von der CD-ROM
und mit Bedientasten zum Eingeben von Befehlen des Benutzers ausgestattet.
Hierbei ist es auch möglich,
anstelle der CD-ROM eine DVD oder einen anderen geeigneten Datenträger zu verwenden.
Wenn ein Benutzer z. B. über
die Bedientasten Befehle eingibt, um die Zielführung von einer Startposition
zu einem Ziel anzuordnen, führt
das Navigationsgerät 15 die Zielführung aus,
indem es auf dem Anzeigegerät 5 die
Straßenkarte einschließlich der
optimalen Strecke von der gegenwärtigen
Position des Fahrzeugs zu dem Ziel anzeigt. Darüber hinaus zeigt das Anzeigegerät 5 nicht
nur die Straßenkarte
zur Zielführung an,
sondern auch verschiedene Bilder wie etwa Menüs zum Suchen nach Einzelinformationen.
-
Das
Spracherkennungssystem 1 enthält einen Steuerungsabschnitt 50,
welcher im Wesentlichen aus einem Mikrocomputer aufgebaut ist, welcher
aus einer CPU, einem ROM und einem RAM besteht, einen Eingabeabschnitt 23 zum
Eingeben von Befehlen und Daten von der Schaltereinrichtung 3 an den
Steuerungsabschnitt 50, einem Bildausgabeabschnitt 25 zum
Ausgeben von Bilddaten, welche von dem Steuerungsabschnitt 50 ausgegeben
werden, an die Anzeigeeinheit 5 durch Umwandlung in ein
Videosignal und dann Anzeigen der Bilder auf der Anzeigefläche bzw.
dem Anzeigegebiet, einen Spracheingabeabschnitt 27 zum
Umwandeln eines von dem Mikrophon 7 eingegebenen Sprachsignals
in digitale Daten, einen Spracherkennungsabschnitt 30 zum
Erkennen und Erhalten eines Schlüsselworts (Vokalisierungsschlüsselwort – utterance
key-word) als ein von einem Benutzer vokalisierter Sprachbestandteil
aus einem durch den Spracheingabeabschnitt 27 eingegebenen
Sprachsignal, einen Sprachausgabeabschnitt 28 zum Ausgeben
von Textdaten, welche von dem Steuerungsabschnitt 50 ausgegeben
werden, an den Lautsprecher 11 durch Umwandlung in ein
analoges Sprachsignal, um den Lautsprecher 11 anzuregen,
und eine Gerätesteuerungsschnittstelle
(device control I/F) 29 zum Verbinden des Navigationsgeräts 14 mit
dem Steuerungsabschnitt 50 zur Datenkommunikation.
-
Der
Spracheingabeabschnitt 27 extrahiert, um eine charakteristische
Menge der eingegebenen Sprache zu analysieren, ein Rahmensignal
in dem Bereich von einigen zehn Millisekunden in einem konstanten
Zeitintervall und bestimmt, ob das eingegebene Signal dem Sprachbereich, welcher
den Sprachbestandteil bzw. die Sprache enthält, oder dem Rauschbereich,
welcher keine Sprache enthält, angehört. Das
von dem Mikrophon 7 eingegebene Signal erlaubt ein Nebeneinander
von Sprache als dem Erkennungsobjekt und Rauschen, und daher wird eine
Bestimmung für
Sprachbereich und Rauschbereich durchgeführt. Zum Bestimmen solcher
Sprach- und Rauschbereiche sind verschiedene Verfahren vorgeschlagen
worden. Zum Beispiel wird eine kurzzeitige Leistung eines Eingangssignals
in jeder konstanten Zeitdauer extrahiert, und abhängig davon,
ob die kurzzeitige Leistung für
eine Zeitdauer, welche länger
als die konstante Zeitdauer ist, höher als ein vorbestimmter Schwellenwert
ist oder nicht, werden Sprachbereich und Rauschbereich unterschieden. Wenn
der Sprachbereich festgestellt wird, wird das eingegebene Signal
an den Spracherkennungsabschnitt 30 ausgegeben.
-
Nun
soll der Aufbau des Spracherkennungsabschnitts 30 anhand 1B genauer
erläutert
werden. Der Spracherkennungsabschnitt 30 weist einen LPC-(Lineare
Prädiktionskodierung – linear
predictive coding)-Analyseabschnitt 31, einen Cepstrum-Berechnungsabschnitt 32,
einen Standardmuster-Speicherungsabschnitt 33, einen Kollationsabschnitt 34, einen
Fixierabschnitt 35 und einen Kenngrößen-Rückwärtsausgabeabschnitt 36 auf.
-
Der
LPC-Analyseabschnitt 31 führt die lineare Prädiktionsanalyse
unter Verwendung eines Ausgangs aus einer Rauschunterdrückungssorrichtung durch.
Die lineare Prädiktionsanalyse
ist ein gewöhnliches
Verfahren in dem Bereich der Sprachsignalverarbeitung. Dieses Verfahren
ist in ”Digital
voice Process” von
Furui (Tokai Univ. Publication Society) genau erläutert. In
dieser Ausführungsform
wird das Selbstkorrelationsverfahren für die lineare Prädiktionsanalyse
verwendet, und der LPC-Koeffizient der m-ten Ordnung wird unter
Verwendung des Selbstkorrelationskoeffizienten C(r) berechnet.
-
Der
Cepstrum-Berechnungsabschnitt 32 berechnet den LPC-Cepstrum-Koeffizienten
als den charakteristischen Parameter bzw. die Kenngröße des Spektrums
jedes Rahmens bzw. Fensters auf der Grundlage des durch den LPC-Analyseabschnitt 31 berechneten
LPC-Koeffizienten.
-
Eine
Folge bzw. Reihe bzw. Abfolge des LPC-Cepstrums, welches durch den
Cepstrum-Berechnungsabschnitt 32 erhalten wird, wird an
den Kenngrößen-Rückwärtsausgabeabschnitt 36 ausgegeben
und wird dann vorübergehend
gespeichert, bis die vorbestimmte Anweisung gegeben wird. Wenn die
vorbestimmte Anweisung gegeben wird, ordnet der Kenngrößen-Rückwärtsausgabeabschnitt 26 solche
LPC-Koeffizienten in der Abfolge mit invertierter Zeitachse um und
gibt dann diese invertierte Abfolge der LPC-Koeffizienten an den
Kollationsabschnitt 34 aus. Andererseits werden die Standardmuster
(Abfolge von Kenngrößen) der
Erkennungsobjektworte, welche vorher berechnet worden sind, in dem
Standardmuster-Speicherungsabschnitt 33 gespeichert, und
der Kollationsabschnitt 34 berechnet einen Ähnlichkeitsgrad
zwischen dem in dem Standardmuster-Speicherungsabschnitt 33 gespeicherten
Standardmuster und dem durch den Cepstrum-Berechnungsabschnitt 32 berechneten
LPC-Cepstrum-Koeffizienten, dessen Zeitachse durch den Kenngrößen-Rückwärtsausgabeabschnitt 36 invertiert
ist. Diese Abschnitte teilen die Zeitreihendaten mit dem bekannten
DP-Abgleichverfahren, HMM (Hidden Markov Model) oder einem neuralen
Netz oder dergleichen in mehrere Bereiche und erzielen die Übereinstimmung
zwischen jedem Bereich und dem Wort, worin ein solcher Bereich als
die Wörterbuchdaten gespeichert
ist.
-
Das
in dieser Ausführungsform
in dem Standardmuster-Speicherungsabschnitt 33 gespeicherte Standardmuster
speichert nicht nur die Daten der Wörter, welche ein Vergleichsobjektmusterkandidat sind,
sondern auch die Daten, welche seine hierarchische Struktur anzeigen,
wenn das Wort des Vergleichsobjektmusters durch hierarchisches Verbinden
bzw. Koppeln einer Mehrzahl von Worten ausgebildet ist. In 2 ist
beispielsweise ein geographisches Wörterbuch in den Vereinigten
Staaten dargestellt, in welchem ein Ort durch den Ausdruck in einer Baumstruktur
angezeigt ist. Dieses geographische Wörterbuch ist in der Baumstruktur
einer Mehrzahl von Ebenen von Straßenname, Städtename und Bundesstaatsname
oder Ebenen von Städtename und
Bundesstaatsname aufgebaut. Hierbei kann ein detaillierteres Wörterbuch
durch Hinzufügen
von Hausnummern und Postleitzahlen (ZIP codes) als strukturelle
Elemente erhalten werden. Andererseits kann ein vereinfachtes Wörterbuch
auch nur mit Städtename
und Bundesstaatsname aufgebaut sein. In 2 sind die
Worte, die jeden Ortsnamen ausbilden, nacheinander von der linken
Seite her in der Vokalisierungsreihenfolge angezeigt. Diese Wörter sind mit
durchgezogenen Linien verbunden, um eine Baumstruktur aufzubauen.
Wenn diese Baustruktur mit den eingegebenen Sprachbestandteilen
kollationiert bzw. einer Kollation bzw. einem Textvergleich unterzogen
wird, wird diese Kollation von der rechten Seite aus, also beginnend
mit dem auf der Zeitachse später
vokalisierten Namen des Bundesstaats durchgeführt.
-
Nachdem
der Textvergleich beginnend mit dem auf der Zeitachse später vokalisierten
Namen des Bundesstaats durchgeführt
wird, kann das Standardmuster in Phonemeinheiten, also etwa in der
Art einer Lautschrift, erzeugt werden, wie in 3A und 3B gezeigt.
In 3A ist nur ein Teil der Bundesstaatsnamen dargestellt,
und solche Bundesstaatsnamen sind unter Verwendung von Lautsymbolen
in Phoneme unterteilt. Diese Lautsymbole werden in 3B von
der Rückseite
her kollationiert. Wie in 3B gezeigt,
sind die Phonemdaten, welche ein Wort ausbilden, jeder Seite (angezeigt
durch ein Pfeilsymbol (→)
in 3B) der Baumstruktur zugeordnet. In 3B stellt
ein einfacher Kreis (O) einen Verzweigungspunkt dar, während ein
Doppelkreis (⌾)
einen Empfangs- bzw. Aufnahme- bzw. Übernahmeverzweigungspunkt (reception
branching point), also einen Verzweigungspunkt für ein Wort, darstellt. Der
mit dem Pfeilsymbol A in 3B bezeichnete
Verzweigungspunkt ist eine ”Wurzel” (root),
und ein Wort wird durch Verfolgen der jeder Seite zugeordneten Silben
in Abhängigkeit
von der ”Präorder-Traversierungsabtasung” (preorder
traversal scanning) von einer solchen Wurzel aus vervollständigt. Hierbei
bedeutet ”Präorder-Traversierungsabtastung” bzw. ”Präorder-Traversierung” oder ”Präfix-Traversierung” das Abtastverfahren,
bei welchem das Abtasten zuerst zu der Wurzel hin und dann nacheinander
zu einem Teilbaum hin durchgeführt wird,
wobei ein Kind als die Wurzel festgelegt wird. Hierin bedeutet ”Vater” bzw. ”Elter” (parent)
einen vorausgehenden Verzweigungspunkt, ”Kind” (child) bedeutet den nächsten Verzweigungspunkt
und ”Bruder” oder ”Geschwister” (brother)
den Verzweigungspunkt des selben Vaters.
-
Insbesondere
wird in dem in 3B gezeigten praktischen Beispiel,
wenn der Textvergleich bzw. die Kollation hintereinander von dem
mit ”A” bezeichneten
Verzweigungspunkt als der ”Wurzel” bis hin
zu dem mit ”B” Empfangsverzweigungspunkt
ausgeführt wird,
der Bundesstaat Alabama in Einheiten von Phonemen umgekehrt bzw.
invers bzw. in umgekehrter Reihenfolge ausgedrückt. Daher ist Alabama ein
Erkennungsobjektwort. Darüber
hinaus ist jeder Städtename
im Bundesstaat Alabama hiernach in Einheiten von Phonemen über den
Empfangsverzweigungspunkt B umgekehrt ausgedrückt. Hierbei wird, nachdem
in den vier Namen von Bundesstaaten, die in 3A aufgeführt sind,
nämlich
Alabama, Oklahoma, Florida und Georgia, das letzte Phonem gemeinsam
verwendet wird, die Verzweigung von dem gleichen Empfangsverzweigungspunkt
aus durchge führt.
In gleicher Weise wird für
die Namen von Städten
in dem gleichen Bundesstaat, bei welchen das gleiche bzw. letzte
Phonem gemeinsam verwendet wird, die Verzweigung von dem gleichen
Empfangsverzweigungspunkt aus durchgeführt, und die Verzweigung für die Namen
von Staßen
in der gleichen Stadt, in welchen das gleiche bzw. letzte Phonem
gemeinsam verwendet wird, wird von dem gleichen Empfangsverzweigungspunkt
aus durchgeführt.
-
Nachdem
es erfolgreich ist, wenn der Textvergleich für das hierarchische Erkennungsobjektwort
von der höheren
hierarchischen Ebene aus begonnen wird, ist für die Adressen in den Vereinigten Staaten,
für welche
die Sprachbestandteile von der niedrigeren hierarchischen Ebene
zu der höheren hierarchischen
Ebene hin eingegeben werden, ein Wörterbuch erzeugt worden, in
welchem der Textvergleich mit dem oben erläuterten Prozeß in Einheiten von
Phonemen von dem Namen des Bundesstaats als der höheren hierarchischen
Ebene aus nacheinander zu dem Namen der Stadt und der Straße hin durchgeführt werden
kann.
-
Nach
Berechnung des Ähnlichkeitsgrads
in dem Kollationsabschnitt 34 unter Verwendung der Standardmuster
solcher Daten liefert der Fixierabschnitt 35 als ein Erkennungsergebnis
ein Wort mit dem höchsten
in dem Kollationsabschnitt 34 berechneten Ähnlichkeitsgrad
unter den Erkennungsobjektworten an den Steuerungsabschnitt 50.
Der Steuerungsabschnitt 50 bestimmt das endgültige Erkennungsergebnis
und führt
eine vorbestimmte Nachbearbeitung durch. Als die vorbestimmte Nachbearbeitung
wird betrachtet, die Daten über
die Gerätesteuerungsschnittstelle 29 an
das Navigationsgerät 15 zu senden,
wenn die vorbestimmte Anweisung gegeben wird, um die Ausführung des
vorbestimmten Prozesses anzuordnen. Zum Beispiel wird ein Prozeß, um die
Ausführung
des Voreinstellungsprozesses anzuordnen, durch Melden eines für den Navigationsprozeß benötigten Ziels
ausgeführt.
Ein Ergebnis eines solchen Prozesses ist, daß das Ziel für das Navigationssystem
durch Verwenden des Spracherkennungssystems 30 ohne Verwendung
einer Bedienungsschaltergruppe 8 oder einer Fernsteuerungsvorrichtung 15a mit
dem Spracheingabeprozeß angeordnet
werden kann. Darüber
hinaus führt
der Steuerungsabschnitt 50 den Prozeß auch so aus, daß das von
dem Spracherkennungssystem 30 ausgegebene Erkennungsergebnis
als die Textdaten an den Sprachausgabeabschnitt 28 gesendet
und dann von dem Lautsprecher 11 wiedergegeben wird.
-
Als
ein von dem Spracherkennungsabschnitt 30 an den Steuerungsabschnitt 50 zu
sendendes Erkennungsergebnis können
alle signifikanteren Vergleichsobjektmuster als das endgültige Erkennungsergebnis
oder nur das signifikanteste Objektmuster gesendet werden. Allerdings
wird als Vorbedingung für
ein leichteres Verständnis
in der nachstehenden Erläuterung
davon ausgegangen, daß nur
das signifikanteste Objektmuster übertragen wird, sofern nicht explizit
anders dargestellt.
-
Darüber hinaus
ist in dieser Ausführungsform,
wenn ein Benutzer den Sprechschalter 9 betätigt, der
Benutzer bereit, die Spracheingabe auszuführen. Die Betätigung wird
in der vorliegenden Ausführungsform
bevorzugt durch Niederdrücken
bewerkstelligt, kann aber je nach Art des Sprechschalters auch durch
Verschieben, Umlegen, Kippen, Berühren, Herausziehen oder jede
andere denkbare Art der Schalterbetätigung erfolgen. Nachdem auch
angenommen werden kann, daß auch
nach Betätigen des
Sprechschalters 9 keine Spracheingabe erfolgen muß, wenn
der sprachfreie Bereich länger
als eine vorbestimmte Zeitdauer, nachdem eine Spracheingabe durch
Betätigen
des Sprechschalters 9 möglich geworden
ist, anhält, ändert sich
die Situation, was zu der Bedingung führt, welche eine Spracheingabe abschaltet.
Daher erfaßt
der Spracheingabeabschnitt 27 durch Überwachen der Betätigungszeit
bzw. Niederdrück zeit,
daß der
Sprechschalter 9 betätigt
bzw. niedergedrückt
ist.
-
Das
Spracherkennungssystem 1, insbesondere der Abschnitt 30,
ist programmiert, um wie in 4 dargestellt
zu arbeiten. Es wird angenommen, daß das Ziel durch das Spracheingabeverfahren
eingestellt wird, um die Route mit dem Navigationsgerät 15 zu
suchen.
-
Der
Prozeß von 4 beginnt,
wenn der Sprechschalter 9 eingeschaltet (betätigt) wird.
In dem ersten Schritt S10 gibt ein Benutzer über das Mikrophon 7 Sprachbestandteile
in den Sprachausgabeabschnitt 27 ein. In Schritt S20 wird
bestimmt, ob der sprechfreie Bereich (no-voice domain) der vorbestimmten
Zeit von t Sekunden erfaßt
wird oder nicht. Falls kein sprechfreier Bereich erfaßt wird
(S20: NEIN), wird in Schritt S30 die Kenngröße des eingegebenen Sprachbestandteils
in dem Spracherkennungsabschnitt 30 berechnet und gespeichert.
Der LPC-Analyseabschnitt 31 berechnet die LPC-Koeffizienten,
der Cepstrum-Berechnungsabschnitt 32 berechnet die LPC-Cepstrum-Koeffizienten
als die Kenngrößen, und
diese Parameter werden vorübergehend
in dem Kenngrößen-Rückwärtsausgabeabschnitt 36 gespeichert.
-
Falls
der sprechfreie Bereich der vorbestimmten Zeit von t Sekunden erfaßt wird
(S20: JA), wird in Schritt S40 die Zeitdauer vom Einschalten des Sprechschalters 9 bis
zum Erzeugen des sprechfreien Bereichs als der Sprachbereich (voice
domain) extrahiert, und die Zeitachse der Kenngröße wird invertiert. Insbesondere
gibt in Schritt S50 der Kenngrößen-Rückwärtsausgabeabschnitt 36 nach
der Umordung von Koeffizienten in die Abfolge, in welchen die Zeitachse
invertiert ist, die Abfolge von vorübergehend in dem Kollationsabschnitt 34 gespeicherten
LPC-Cepstrum-Koeffizienten
aus.
-
In
Schritt S60 führt
der Kollationsabschnitt 34 den Musterabgleich zwischen
dem in dem Standardmuster-Speicherungsabschnitt 33 gespeicherten Standardmuster
und dem von dem Kenngrößen-Rückwärtsausgabeabschnitt 36 ausgegebenen LPC-Cepstrum-Koeffizienten
durch, um einen Ähnlichkeitsgrad
zu berechnen.
-
In
Schritt S70 wird das durch das Kollationsergebnis bestimmte signifikantere
Vergleichsobjektmuster als das Erkennungsergebnis an den Steuerungsabschnitt 50 ausgegeben,
und der Steuerungsabschnitt 50 ruft zurück und zeigt ein solches Erkennungsergebnis
an. Mit diesem Rückruf
steuert der Steuerungsabschnitt 50 den Sprachausgabeabschnitt 28 derart,
daß er
das erkannte Ergebnis als den Sprachbestandteil über den Lautprecher 11 ausgibt,
und steuert den Bildausgabeabschnitt 25 derart, daß er den
Anzeigeabschnitt 5 anweist, die das Erkennungsergebnis
angebenden Zeichen anzuzeigen.
-
Dadurch
wird auf der Grundlage der Anweisung von einem Benutzer in Schritt
S80 bestimmt, ob die Erkennung richtig ist oder nicht. Die Bestimmung wird
auf der Grundlage der Betätigungen
an der Schalteranordnung 3 durch den Benutzer vorgenommen.
Hierbei ist es auch möglich,
daß die
Bestimmung auf der Grundlage einer Spracheingabe durch das Mikrophon 7 vorgenommen
wird. Beispielsweise kann bei einer Spracheingabe von etwa ”JA”, was einen
bestätigenden
Inhalt anzeigt, die Erkennung als richtig fixiert werden, falls
dagegen die Spracheingabe etwa ”NEIN” lautet,
was einen negativen Inhalt anzeigt, kann die Erkennung als falsch
bestimmt werden.
-
Wenn
die falsche Erkennung fixiert wird (S80: NEIN), wird der vorliegende
Prozeß in
dieser Zeit abgeschlossen. Wenn der Benutzer erneut die Spracheingabe
ausführt,
muß der
Benutzer erneut den Sprechschalter 9 betätigen. Damit
wird dieser Prozeß erneut
von Beginn an ausgeführt.
-
Wenn
indessen die bestätigende
Bestimmung ausgeführt
wird, insbesondere in Schritt S80 die richtige Erkennung fixiert
wird, fixiert der Steuerungsabschnitt 50 in Schritt S90
das Erkennungsergebnis. Wenn das Erkennungsergebnis fixiert ist, wird
in Schritt S100 ein vorbestimmter Fixierungsfolgeprozeß ausgeführt. In
diesem Fall umfaßt
der Fixierungsfolgeprozeß zum
Beispiel einen Prozeß,
in welchem die Daten des ”Menübildes”, falls
es das Erkennungsergebnis ist, über
die Gerätesteuerungsschnittstelle 29 an
das Navigationsgerät 15 ausgegeben
werden. Nach dem Prozeß in
Schritt S100 ist dieser Prozeß beendet.
-
Wie
zuvor erläutert,
wird gemäß dem Spracherkennungssystem 1 dieser
Ausführungsform
die im US-Stil ausgedrückte,
durch Spracheingabe eingegebene Adresse unter Verwendung des in 2 gezeigten
Wörterbuchs
mit umgekehrter Baumstruktur erkannt. Wenn jedoch die Adresse in
der eingegebenen Sequenz verglichen wird, kann keine hohe Erkennungsgüte erwartet
werden, weil das Wörterbuch in
der Baumstruktur, welche mit der niedrigen hierarchischen Ebene
beginnt, ausgebildet ist. Daher werden in dieser Ausführungsform
die Kenngrößen einer Abfolge
von eingegebenen Sprachbestandteilen als das Erkennungsobjekt mit
dem Kenngrößen-Rückwärtsausgabeabschnitt 36 des
Spracherkennungsabschnitts 30 auf der Zeitachse invers
konvertiert bzw. umgewandelt, um das Erkennungswörterbuch mit der umgekehrten
Baumstruktur, welche mit der niedrigen hierarchischen Ebene beginnt,
wirksam bzw. erfolgreich auszunutzen. Die Kollation der Adresse
wird, wie in 3 gezeigt, mit dem Erkennungswörterbuch
mit umgekehrter Baumstruktur von 2 in der
Rückwärtsrichtung
durchgeführt.
Insbesondere kann der Prozeß durchgeführt werden,
indem das Erkennungswörterbuch
als das gewöhnliche
Erkennungswörterbuch
mit der herkömmlichen Baumstruktur,
welches bei der hohen hierarchischen Ebene beginnt, betrachtet wird.
Demzufolge kann der der Baumstruktur innewohnende Vorteil des Wörterbuchs
mit Baumstruktur erfolgreich ausgenutzt werden, wodurch Verbesserungen
in der Erkennungsgüte
erwartet werden.
-
In
dieser Ausführungsform
wird, wie in dem Flußdiagramm
von 4 gezeigt, der eingegebene Sprachbestandteil in
dem Sprachbereich durch Umwandlung in die LPC-Cepstrum-Koeffizienten als die sequentiellen
Parameter vorübergehend
gespeichert. Nach Abschließen
des Sprachbereichs werden solche LPC-Cepstrum-Koeffizienten auf
der Zeitachse invers konvertiert und dann ausgegeben und kollationiert.
Daher kann die nächste
Operation nicht begonnen werden, bevor eine Abfolge der Spracheingabe
abgeschlossen ist.
-
Die
vorstehende Ausführungsform
kann wie folgt modifiziert werden:
- (1) Die
vorstehende inverse Konvertierung auf der Zeitachse kann in dem
Zustand der Sprachwellenforminformation durchgeführt werden. Ein Aufbau des
Spracherkennungsabschnitts 30 in einem solchen Fall ist
in 5A gezeigt.
-
Bei
dieser Modifizierung ist ein Sprachwellenform-Rückwärtsausgabeabschnitt 37 in
der dem LPC-Analyseabschnitt 31 vorhergehenden Stufe vorgesehen.
Dieser Sprachwellenform-Rückwärtsausgabeabschnitt 37 speichert
vorübergehend
die von dem Spracheingabeabschnitt 27 eingegebene Sprachwellenform,
bis die vorbestimmte Anweisung gegeben wird. Wenn die vorbestimmte
Anweisung erzeugt wird, wird eine solche Wellenform an den LPC-Analyseabschnitt 31 als
die Sprachwellenform ausgegeben, wobei die Zeitachse invertiert
ist.
-
Abläufe dieser
Modifizierung werden nun anhand des Flußdiagramms von 5B erläutert werden.
Das Flußdia gramm
von 5B ist durch teilweises Ändern des Flußdiagramms
von 4 gewonnen, und die gleichen Abschnitte sind mit
den gleichen Schrittnummern bezeichnet. Genauer gesagt sind die
Schritte S10, S20 und S60 bis S100 in 4 denen
einer anderen Ausführungsform
gleich, und die Schritte S30 bis S50 sind durch die Schritte S130 bis
S160 von 5B ersetzt.
-
In
anderen Worten, während
ein Bereich ohne Spracheingabe bzw. ein sprechfreier Betrieb nicht
erfaßt
wird (S20: NEIN), speichert der Sprachwellenform-Rückwärtsausgabeabschnitt 37 des Spracherkennungsabschnitts 30 vorübergehend
die von dem Spracheingabeabschnitt 27 eingegebene Sprachwellenform.
Wenn der Bereich ohne Spracheingabe der vorbestimmten Zeit von t
Sekunden erfaßt
wird (S20: JA), wird in Schritt S140 die Zeitdauer vom Einschalten
des Sprechschalters 9 bis zum Erzeugen des Bereichs ohne
Spracheingabe als der Sprachbereich extrahiert, und die Sprachwellenform
dieses Bereichs wird in Schritt S150 durch Invertieren der Zeitachse
neu gebildet und dann an den LPC-Analyseabschnitt 31 ausgegeben.
Hierbei berechnet in Schritt S160 der LPC-Analyseabschnitt 31 die
LPC-Koeffizienten, der Cepstrum-Berechnungsabschnitt 32 berechnet
die LPC-Cepstrum-Koeffizienten als die Kenngrößen, und diese Berechnung wird
an den Kollationsabschnitt 34 ausgegeben. Danach wird in
Schritt S60, wie in dem Fall der zuvor geschilderten Ausführungsform,
ein Musterabgleich zwischen dem in dem Standardmuster-Speicherungsabschnitt 33 gespeicherten
Standardmuster und den durch den Cepstrum-Berechnungsabschnitt 32 berechneten
LPC-Cepstrum-Koeffizienten durchgeführt, um einen Ähnlichkeitsgrad
zu berechnen. Die nachfolgenden Abläufe sind die gleichen wie die in 4 und
sollen hier nicht erneut erläutert
werden.
- (2) Als eine Modifizierung zum Erreichen
einer entsprechenden Spracherkennung ist es möglich, mit dem Cepstrum-Berechnungsabschnitt 32 ein Delta-Cepstrum
zu erhalten, was die Bedeutung eines dynamischen charakterischen
Betrags hat (Betrag einer Änderung
für das
Vor-Cepstrum bzw.
Präcepstrum
und Nach-Cepstrum bzw. Postcepstrum = Angabe eines Gradienten).
Falls dieses Delta-Cepstrum mit dem Kenngrößen-Rückwärtsausgabeabschnitt 36 direkt
invertiert wird, sind diese Daten nicht länger die, welche als das Delta-Cepstrum
geliefert werden sollten. Daher ist es, um das richtige Delta-Cepstrum
zu erhalten, nur erforderlich, daß das Delta-Cepstrum von dem
invers ausgegebenen Cepstrum gewonnen wird. Daher muß bei dem
ein solches Delta-Cepstrum ausnutzenden Aufbau nur der Prozeßblock zum
Berechnen des Delta-Cepstrums der dem Kenngrößen-Rückwärtsausgabeabschnitt 36 nachfolgenden
Stufe hinzugefügt
werden.
-
Wie
für die
Modifizierung (1) erläutert,
weist das Delta-Cepstrum bei dem Aufbau, bei welchem die eingegebene
Sprachwellenform selbst einmal gespeichert und dann in umgekehrter
bzw. inverser Richtung ausgegeben wird, die Information auf, welche
eigentlich geliefert werden sollte, und daher ist nichts weiter
zu tun, als die Berechnung wie üblich durch
den Cepstrum-Berechnungsabschnitt 32 durchzuführen.
- (3) Anstelle des LPC-Cepstrum-Koeffizienten
ist es zum Beispiel möglich,
ein mit einer Mel-Skala oder einem Spektrum justiertes Cepstrum
zu verwenden.
- (4) Nachdem das Ähnlichkeitserkennungswörterbuch
mit der anderen Struktur als der umgekehrten Baumstruktur beispielsweise
für die
Adresse in den verschiedenen europäischen Ländern erstellt werden kann,
kann dieses Erkennungswörterbuch
auch in diesen Ländern
verwendet werden. In Großbritannien
wird die Adresse zum Beispiel in der Reihenfolge Hausnummer → Stadtteil → Stadt wie
in dem Fall der Vereinigten Staaten vokalisiert, und in Frank reich
im Wesentlichen in der Reihenfolge Hausnummer → Stadtteil → Postleitzahl (mail no.) → Departement.
In Deutschland wird die Adresse in der Reihenfolge Straße → Hausnummer → Postleitzahl → Bundesstaat
vokalisiert. In Deutschland wird die Adresse auch in der Reihenfolge
Straße → Hausnummer → Postleitzahl → Stadt → Bundesland
vokalisiert.
- (5) Aus dem Blickwinkel einer erfolgreichen Anwendung des Erkennungswörterbuchs
mit umgekehrter Baumstruktur zur Spracherkennung von Adressen in
den Vereinigten Staaten und europäischen Ländern ist es vorzuziehen, das
Verfahren einzuführen,
in welchem eine Abfolge von eingegebenen Sprachbestandteilen als
das Erkennungsobjekt in dem Zustand der Sprachwellenform oder von
Kenngrößen auf
der Zeitachse invers umgewandelt wird. Bei dem Adreßerkennungssystem,
bei welchem die Adresse nacheinander von der niedrigen hierarchischen
Ebene aus vokalisiert wird, ist ein zusätzliches Wörterbuch nicht erforderlich.
Wenn es erforderlich ist, die Erkennungsobjektworte, welche keine
Eigenschaft wie zuvor erläutert
aufweisen, zu erkennen, ist auch das Erkennungswörterbuch der anderen Struktur
als der umgekehrten Baumstruktur vorgesehen. Daher ist eine Auswahl
bzgl. eines Erkennungswörterbuchs
je nach Situation erforderlich. In diesem Fall wird aus der vorbestimmten Manipulation
erkannt, daß das
Erfassungswörterbuch
mit umgekehrter Baumstruktur verwendet werden sollte. Daher muß nur in
dem vorgenannten Fall nur der Rückwärtserkennungsprozeß unter
Verwendung des Erfassungswörterbuchs
mit umgekehrter Baumstruktur ausgeführt werden. Auch wenn die Verwendung
in den Vereinigten Staaten und verschiedenen europäischen Ländern betrachtet
wird, müssen
die anderen Wörter als
die vorstehend erläuterten
Adressen in der gewöhnlichen
Sequenz erkannt werden. Daher ist es nicht vorzuziehen, daß die eingegebenen Sprachbestandteile
einheitlich auf der Zeitachse invertiert werden.
-
Demgemäß wird in
diesem Fall auch angenommen, daß die
Spracherkennung von Adressen zum Beispiel aus Betätigungen
von Schaltern durch einen Benutzer erkannt werden und der Rückwärtserkennungsprozeß nur in
dem Fall einer Spracherkennung von Adressen durch Verwenden des
Erkennungswörterbuchs
mit umgekehrter Baustruktur zur Adressenerkennung ausgeführt wird.
Zum Beispiel kann es sein, daß die
Adressenerkennungsbetriebsart mit der Betätigung der Schaltervorrichtung 3 mit der
Spracherkennung festgelegt wird. Wenn ein Benutzer beispielsweise
die Worte ”Adresseneingabe” vokalisiert
hat, wird die Adressenerkennungsbetriebsart eingestellt, und der
durch das Flußdiagramm
von 4 verdeutlichte Prozeß wird eingeleitet.
- (6) Es ist auch möglich, die Zeitdauer, in welcher zum
Beispiel der Sprechschalter 9 anhaltend betätigt ist,
als die Spracheingabedauer zu bestimmen. Diese Bestimmung basiert
als den Vorbedingungen auf der Struktur, daß als das Spracheingabeverfahren
die Spracheingabe nur so lange erlaubt ist, wie ein Benutzer den
Sprechschalter 9 fortgesetzt betätigt.
- (7) Die vorliegende Erfindung kann auch auf das Erkennungswörterbuch
mit ”umgekehrter Baustruktur” angewendet
werden, wobei die Baustruktur in das Erkennungswörterbuch eingeführt ist,
wobei eine Mehrzahl von Wörtern
in einer hierarchischen Ebene auf die gleiche Weise kombiniert werden
und die Spracheingaben in der letzteren Abfolge kombiniert werden.
- (8) Es ist auch möglich,
die Adressenerkennung unter dem nachstehenden Gesichtspunkt zu berücksichtigen.
In einem Beispiel der Vereinigten Staaten wird nämlich eine Person, welche derzeit in
dem Bundesstaat Alabama lebt und sich zu einem anderen Ort in dem
gleichen Bundesstaat begibt, üblicherweise
nicht absichtlich bis hin zu dem letzten Wort ”Alabama” vokalisieren. In diesem Fall
ist es vorzuziehen, daß die
Spracheingabe, in welcher der Name des Bundesstaats weggelassen
wird, entsprechend erkannt wird.
-
Daher
wird der Name des Bundesstaats aus dem Namen der Stadt zugeordnet
unter der Annahme, daß die
Information über
die derzeitige Position zum Beispiel von dem Navigationsgerät 15 eingegeben
und die Spracheingabe der Adresse unter Weglassen des Namens des
Bundesstaats einer solchen derzeitigen Position, ausgeführt wird.
In dem Fall von 3B ist es, wenn eine Person
sich derzeit in dem Bundesstaat Alabama befindet, nur erforderlich,
die Spracherkennung unter Berücksichtigung
des Standardmusters, beginnend mit dem Verzweigungspunkt B als passendes
Objekt bzw. Abgleichsobjekt, auszuführen.
-
Darüber hinaus
kann die Flexibilität
der Anwendung weiter so verbessert werden, das ein Benutzer von
der Last befreit wird, die Spracheingabe von der höheren hierarchischen
Ebene aus durchzuführen,
auch wenn es natürlich
ist, die höhere
hierarchische Ebene wegzulassen, indem das natürliche Verhalten in den Gewohnheiten
täglicher
Konversation berücksichtigt
wird, daß der
Name des Orts in der höheren
hierarchischen Ebene für
den Bereich innerhalb des vorbestimmten Bereichs, in welchem sich eine
Person aufhält,
nicht beliebig identifiziert wird und die Identifizierung von dem
Gebiet der niedrigeren hierarchischen Ebene aus erfolgt.
- (9) In dem Fall des Erkennungswörterbuchs
mit herkömmlicher
Baumstruktur ist es bekannt, daß zur
Reduzierung der Prozeßlast
das sogenannte ”Eliminieren
von Zwei gen” (cut
of branch) auszuführen,
um die Kandidaten in der Erkennung weiter einzugrenzen.
-
Wenn
dieses ”Eliminieren
von Zweigen” bei Verwendung
des Erkennungswörterbuchs
mit umgekehrter Baumstruktur, wie in den vorgenannten Ausführungsformen
erläutert,
ausgeführt
wird, erhöht sich
die Wahrscheinlichkeit, einen Zweig zu eliminieren, der die Wörter der
korrekten Anwort enthält.
Jedoch ist bei den vorgenannten Modifizierungen ein Eliminieren
von Zweigen nicht nachteilig, weil der Prozeß durch Berücksichtigen des Erkennungswörterbuchs
mit umgekehrter Baumstruktur als das gewöhnliche Erkennungswörterbuch
mit herkömmlicher,
also vorwärtsgerichteter
Baumstruktur, beginnend auf der hohen hierarchischen Ebene, ausgeführt werden
kann. Daher kann bei den vorgenannten Ausführungsformen ein Eingrenzen
der Kandidaten durch den Prozeß eines
Elinierens von Zweigen wirksam ausgeführt werden, und in diesem Fall
ist es möglich,
den gleichen Vorteil einer Verbesserung in der Erkennungsrate zu
erzielen.
- (10) Ein Programm zum Steuern eines
Computers als eine Erkennungseinrichtung kann zum Beispiel auf einem
Speichermedium wie einer Diskette, einer magnetooptischen Platte,
einer CD-ROM, einer Festplatte, einem ROM und/oder einem RAM, welche
mit Hilfe des Computers gelesen werden können, gespeichert sein, und
dieses kann auch durch Laden und Bewegen bzw. Übertragen durch das Netzwerk
verwendet werden.
-
Vorstehend
wurde ein Spracherkennungssystem, ein Programm zum Steuern eines
Computers als die Erkennungseinrichtung in einem Spracherkennungssystem,
ein Verfahren zur Spracherkennung und ein Navigationssystem zur
Verwendung mit einem Spracherkennugnssystem beschrieben. Vom Betätigen eines
Sprechschalters bis zum Beginn eines Bereichs ohne Sprache wird
Sprache eines Benutzers wird in einen Spracherfassungsabschnitt
eingegeben. Aus der Sprache werden in einem LPC-Analyseabschnitt
und einem Cepstrum-Berechnungsabschnitt LPC-Cepstrum-Koeffizienten
berechnet und dann in einem Parameter-Rückwärtsausgabeabschnitt zwischengespeichert.
Eine Abfolge der LPC-Cepstrum-Koeffizienten
wird in die Abfolge, in welcher die Zeitachse invertiert ist, umgeordnet und
dann an einen Kollationsabschnitt ausgegeben. Der Kollationsabschnitt
berechnet einen Ähnlichkeitsgrad
zwischen den LPC-Cepstrum-Koeffizienten und einem Erkennungswörterbuch
mit umgekehrter Baumstruktur, welches in einem Standardmusterabschnitt
gespeichert ist, durch Rückwärtskollation.