DE10246029B4

DE10246029B4 - Spracherkennungssystem, Computerprogramm, Navigationssystem und Kollationsverfahren

Info

Publication number: DE10246029B4
Application number: DE10246029A
Authority: DE
Inventors: Takafumi Kariya Hitotsumatsu
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2001-10-03
Filing date: 2002-10-02
Publication date: 2010-08-05
Anticipated expiration: 2022-10-03
Also published as: US7240008B2; DE10246029A1; US20030065516A1; JP2003114696A; JP4104313B2

Abstract

Spracherkennungssystem mit:
a) einer Spracheingabeeinrichtung (7, 27) zum Eingeben einer Adresse mittels kontinuierlicher Sprache,
a1) wobei eine eingegebene Adresse bei einem Wort einer niedrigen hierarchischen Ebene, beispielsweise dem Namen einer Straße, beginnt und bei einem Wort mit einer höheren hierarchischen Ebene, beispielsweise dem Namen eines Bundesstaats, endet,
b) einer Wörterbucheinrichtung (33) zum Speichern eines Erkennungswörterbuchs mit einer Mehrzahl von Folgen von Phonemeinheiten,
b1) wobei eine Folge von Phonemeinheiten zur zeitlichen Folge von Phonemen einer Adresse in ihrer gesprochenen Form entspricht,
c) einer Erkennungseinrichtung (30) zum Ausgeben eines Ergebnisses entsprechend einem hohen Übereinstimmungsgrad einer Phonemfolge einer mit der Spracheingabeeinrichtung eingegebenen Adresse mit einer in der Wörterbuchfolge gespeicherten Folge von Phonemeinheiten,
c1) wobei die Erkennungseinrichtung das Erkennungswörterbuch verwendet, um einen Rückwärtserkennungsprozess auszuführen, wobei die Phonemfolge einer mit der Spracheingabeeinrichtung eingegebenen Adresse nacheinander von einem Phonem zu einer jüngeren Eingabezeit zu einem Phonem zu einer älteren Eingabezeit...

Description

Die vorliegende Erfindung betrifft eine Technik zur Spracherkennung, welche verwendet werden kann, um mittels Sprache beispielsweise ein Reiseziel in ein Navigationssystem einzugeben.
Ein Spracherkennungssystem liefert ein Erkennungsergebnis auf der Grundlage des höheren Übereinstimmungsgrads durch Vergleichen der Spracheingabe bzw. eingegebener Sprachbestandteile mit einer Mehrzahl von möglichen Mustern (nachstehend ”Musterkandidaten” genannt) als den vorab gespeicherten Vergleichsobjekten. Es wird beispielsweise zum Eingeben eines Ortsnamens als ein festzulegendes Ziel in ein Navigationssystem mittels Sprache durch einen Benutzer verwendet. Insbesondere wenn ein Fahrer ein mobiles Navigationssystem verwendet, während er ein Fahrzeug führt, ist das Spracheingabeverfahren sehr sicher und effizient, da dieses Verfahren keine Manipulationen wie eine Betätigung von Bedienelementen oder Beobachtung einer Anzeige durch den Fahrer erfordert. Es sei darauf hingewiesen, daß der Begriff Ort hierin in seiner allgemeinsten Form, also im Sinne eines Standorts oder einer geographischen Lage verwendet wird.
Um solche Funktionen zu erfüllen, ist es wichtig, einen Ort leicht mit hinreichender Genauigkeit zu bestimmen. In der Praxis muß es möglich sein, den Ort bis zu der Ebene von Stadtteil (Town) oder Straße (Street) (kleinste Gebietseinheit) unter dem Städtenamen einzugeben, wobei der die Ebene von Stadt (City) oder Präfektur bzw. Amtsbezirk (Prefecture) überschritten wird. Darüber hinaus ist es, wenn der Benutzer zum Beispiel ein Ziel wie ”Showa-Town, Kariya-City, Aichi-Prefecture” festlegen möchte, sehr mühsam, wenn vom Benutzer erwartet wird, das Ziel getrennt für jede Ebene von Stadtteil, Stadt und Amtsbezirk wie etwa ”Showa-Town”, ”Kariya-City” und ”Aichi-Prefecture” auszusprechen. Daher ist es für den Benutzer vorzuziehen, die Abfolge von Wörtern der Adresse kontinuierlich eingeben zu können (kontinuierliche Eingabe).
In dem Fall einer Adresse eines Orts in Japan wird die Adresse zuerst verzweigt, und zwar in dem Ausdruck im japanischen Stil, abhängig von der Hauptstadt (Metropolis) Tokio, dem Bezirk Hokkaido, den Kreisen Osaka-Fu und Kyoto-Fu sowie 43 Präfekturen, welche die höchste hierarchische Ebene darstellen, und die Verzweigungsfaktoren bzw. Verzweigungsgrade steigen in der Reihenfolge der Spracheingabe an, etwa zu Stadt und/oder Stadtteil und/oder Hausnummer. Daher ist es vorteilhaft, die Spracherkennung unter Verwendung eines Erkennungswörterbuchs mit einer Baumstruktur für solche Erkennungswörter durchzuführen. 6 zeigt ein Beispiel eines Wörterbuchs mit Baumstruktur für die Erkennung von Adressen in Japan. In diesem Fall wird eine Adresse zuerst, wie zuvor erläutert, in Abhängigkeit von der höchsten hierarchischen Ebene (z. B. Aichi-Prefecture, Gifu-Prefecture, etc.) verzweigt, dann für jede der höchsten hierarchischen Ebenen in Abhängigkeit von einer Stadt (Stadtteil, Dorf) verzweigt, und dann für jede Stadt in Abhängigkeit von einem Stadtteil verzweigt, u. s. w. Insbesondere wenn ein Ausdruck einer Adresse in japanischem Stil in der Reihenfolge der Spracheingabe betrachtet wird, steigt die Zahl der Verzweigungspunkte an, wenn die Adreßebene niedriger wird.
In vielen anderen Ländern der Welt jedoch, zum Beispiel in den Vereinigten Staaten und verschiedenen Europäischen Ländern, beginnt eine Adresse oft mit einer Hausnummer als der niedrigsten hierarchischen Ebene und wird dann in der umgekehrten Reihenfolge im Vergleich zum Ausdruck im japanischen Stil ausgedrückt, also etwa: Name der Straße → Name der Stadt → Name des Bundesstaats. Wenn daher ein Erkennungswörterbuch mit Baumstruktur für eine solche Erkennung der Adressen erzeugt wird, wird das Erkennungswörterbuch in der sogenannten ”umgekehrten Baumstruktur” ausgebildet, in welcher die Anzahl von zu kombinierenden Verzweigungspunkten abnimmt, wenn die Adreßebene höher wird. Demzufolge wird eine Adresse von der ersten hierarchischen Ebene (höchsten hierarchischen Ebene) an vielen Verzweigungspunkten zu der nächsten Ebene verzweigt (zum Beispiel wachsen in den Vereinigten Staaten solche Verzweigungspunkte von einigen Hunderttausend auf etwa mehrere Millionen an). Daher ist es wahrscheinlich, daß der Abgleichprozeß stärker in Anspruch genommen wird und dadurch die Erkennungszeit ansteigt.
Um den Prozeß zu entlasten, ist darüber hinaus bekannt, einen Prozeß eines ”Eliminierens von Zweigen” bzw. ”Entfernens von Zweigen” bzw. ”Abschneidens von Zweigen” (cut of branch) einzuführen, um Kandidaten für die Erkennung in dem Wörterbuch mit Baumstruktur einzugrenzen. Allerdings wird bei Anwendung eines solchen ”Eliminierens von Zweigen” auf das Wörterbuch mit umgekehrter Baumstruktur die Wahrscheinlichkeit, den Zweig zu eliminieren, in welchem das Wort der korrekten Antwort enthalten ist, tatsächlich hoch. Daher kann das Eliminieren von Zweigen nicht erfolgreich sein, was zu einer schlechten Erkennungsgüte führt. Demgemäß war es, nachdem es keinen besonderen Vorteil für die Erzeugung des Erkennungswörterbuchs mit Baumstruktur gibt, schwierig, die Technik der kontinuierlichen Spracherkennung auf eine solche Spracheingabe mit einer umgekehrten Baustruktur anzuwenden.
Dieses Problem ergibt sich, zusätzlich zu dem Fall von Adressen, in jedem Erkennungswörterbuch mit umgekehrter Baumstruktur.
Aus der EP 0 768 638 A2 sind eine Vorrichtung und Verfahren zur Spracherkennung und Navigation bekannt, wobei insbesondere auf die Eigenart der Aussprache japanischer Schriftzeichen abgezielt wird. So kann beispielsweise ein Ortsname als ”xx machi” oder als ”xx cho” ausgesprochen werden. Ein Rückwärtserkenungsprozess oder die Verwendung einer rückwärtsgerichteten Baumstruktur zur Erkennung von Adressen sind hingegen aus der Druckschrift nicht bekannt.
Die Erfindung stellt sich die Aufgabe, die vorgenannten Probleme des Stands der Technik zu lösen. Die Aufgabe wird mit Hilfe der Merkmale der unabhängigen Patentansprüche gelöst. Insbesondere wird die Aufgabe durch ein Spracherkennungssystem nach Anspruch 1, ein Computerprogramm nach Anspruch 15, ein Navigationssystem nach Anspruch 16 und und ein Kollationsverfahren nach Anspruch 17 gelöst. Vorteilhafte Weiterbildungen der Erfindung sind Gegenstand der Unteransprüche.
Die vorliegende Erfindung löst die vorgenannten Probleme und verbessert die Erkennungsgüte der Spracheingabe mit der umgekehrten Baumstruktur, wobei eine Mehrzahl von Wörtern in Abhängigkeit von der Eingabesequenz, zum Beispiel für eine Adresse, wie sie in den Vereinigten Staaten oder in Europäischen Ländern ausgedrückt wird, von der niedrigen hierarchischen Ebene zu der hohen hierarchischen Ebene gekoppelt wird.
Die Erkennungseinrichtung der vorliegenden Erfindung führt den umgekehrten Erkennungsprozeß unter Verwendung des Erkennungswörterbuchs mit umgekehrter Baumstruktur aus, um eine Abfolge von Spracheingaben von dem Sprachbestandteil bzw. -element, dessen Eingabezeit neu ist, zu dem Sprachbestandteil, dessen Eingabezeit alt ist, umgekehrt bzw. in umgekehrter Reihenfolge zu erkennen. Dadurch kann das Wörterbuch mit umgekehrter Baumstruktur erfolgreich als das gewöhnliche Erkennungswörterbuch mit vorwärtsgerichteter, also herkömmlicher Baustruktur, welches von der höheren hierarchischen Ebene aus startet, verwendet werden. Demzufolge können Verbesserungen in der Erkennungsgüte in der Abfolge einer Spracheingabe mit umgekehrter Baumstruktur erwartet werden.
Die vorgenannten und andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden aus der nachstehenden genauen Beschreibung, welche mit Bezug auf die begleitenden Zeichnungen angefertigt wurde, deutlicher werden. In den Zeichnungen:
ist 1A ein Blockdiagramm eines Systems mit einem Spracherkennungssystem einer Ausführungsform der vorliegenden Erfindung;
ist 1B ein Blockdiagramm eines Spracherkennungsabschnitts;
ist 2 ein erläuterndes Diagramm eines Beispiels eines geographischen Wörterbuchs in den Vereinigten Staaten (USA) mit Einführung eines Ausdrucksverfahrens mit umgekehrter Baumstruktur;
ist 3A ein erläuterndes Diagramm des geographischen Wörterbuchs von 2, welches unter Verwendung eines Standardmusters in Phonemeinheiten erzeugt wurde;
ist 3B ein praktisches Beispiel von 3A;
ist 4 ein Flußdiagramm, welches den Prozeß in Bezug auf die Spracherkennung in dem Spracherkennungssystem zeigt;
ist 5A ein erläuterndes Diagramm einer Struktur einer anderen Ausführungsform der vorliegenden Erfindung;
ist 5B ein Flußdiagramm des Ablaufs der anderen Ausführungsform der vorliegenden Erfindung; und
ist 6 ein erläuterndes Diagramm eines Beispiels eines Erkennungswörterbuchs nach dem Stand der Technik, welches nach der herkömmlichen Baumstruktur angelegt ist.
Mit Bezug auf 1A ist ein Spracherkennungssystem 1 dieser Ausführungsform in einem Fahrzeug (Kraftfahrzeug) vorhanden, um ein Navigationsgerät 15, welches ebenfalls in dem Fahrzeug vorhanden ist, durch eine Sprachkommunikation mit einem Insassen (im Wesentlichen einem Fahrer) des Fahrzeugs zu steuern.
Das Spracherkennungssystem ist weiter mit einer Schalt- bzw. Schaltereinrichtung 3 zum Eingeben verschiedenen Befehle und Daten durch externe Manipulationen hiervon des Benutzers, einem Anzeigegerät 5 zum Anzeigen von Bildern, einem Mikrophon 7 zum Eingeben von Sprachbestandteilen bzw. -elementen, einem Sprechschalter 9, welcher zum Eingeben von Sprachbestandteilen zu betätigen ist, und einem Lautsprecher 11 zum Ausgeben von Sprachbestandteilen verbunden.
Das Navigationsgerät 15 dient dem Erfassen bzw. Erkennen der gegenwärtigen Position (Ort) des Fahrzeugs oder dem Ausführen der Leit- bzw. Zielführungsfunktion und ist mit einer an sich bekannten GPS-Vorrichtung zum Erfassen bzw. Erkennen der gegenwärtigen Position des Fahrzeugs, einer CD-ROM, welche Daten zur Zielführung wie etwa Kartendaten, Ortsnamensdaten und Einrichtungs- bzw. Gebäudedaten speichert, einem CD-ROM-Laufwerk zum Lesen der Daten von der CD-ROM und mit Bedientasten zum Eingeben von Befehlen des Benutzers ausgestattet. Hierbei ist es auch möglich, anstelle der CD-ROM eine DVD oder einen anderen geeigneten Datenträger zu verwenden. Wenn ein Benutzer z. B. über die Bedientasten Befehle eingibt, um die Zielführung von einer Startposition zu einem Ziel anzuordnen, führt das Navigationsgerät 15 die Zielführung aus, indem es auf dem Anzeigegerät 5 die Straßenkarte einschließlich der optimalen Strecke von der gegenwärtigen Position des Fahrzeugs zu dem Ziel anzeigt. Darüber hinaus zeigt das Anzeigegerät 5 nicht nur die Straßenkarte zur Zielführung an, sondern auch verschiedene Bilder wie etwa Menüs zum Suchen nach Einzelinformationen.
Das Spracherkennungssystem 1 enthält einen Steuerungsabschnitt 50, welcher im Wesentlichen aus einem Mikrocomputer aufgebaut ist, welcher aus einer CPU, einem ROM und einem RAM besteht, einen Eingabeabschnitt 23 zum Eingeben von Befehlen und Daten von der Schaltereinrichtung 3 an den Steuerungsabschnitt 50, einem Bildausgabeabschnitt 25 zum Ausgeben von Bilddaten, welche von dem Steuerungsabschnitt 50 ausgegeben werden, an die Anzeigeeinheit 5 durch Umwandlung in ein Videosignal und dann Anzeigen der Bilder auf der Anzeigefläche bzw. dem Anzeigegebiet, einen Spracheingabeabschnitt 27 zum Umwandeln eines von dem Mikrophon 7 eingegebenen Sprachsignals in digitale Daten, einen Spracherkennungsabschnitt 30 zum Erkennen und Erhalten eines Schlüsselworts (Vokalisierungsschlüsselwort – utterance key-word) als ein von einem Benutzer vokalisierter Sprachbestandteil aus einem durch den Spracheingabeabschnitt 27 eingegebenen Sprachsignal, einen Sprachausgabeabschnitt 28 zum Ausgeben von Textdaten, welche von dem Steuerungsabschnitt 50 ausgegeben werden, an den Lautsprecher 11 durch Umwandlung in ein analoges Sprachsignal, um den Lautsprecher 11 anzuregen, und eine Gerätesteuerungsschnittstelle (device control I/F) 29 zum Verbinden des Navigationsgeräts 14 mit dem Steuerungsabschnitt 50 zur Datenkommunikation.
Der Spracheingabeabschnitt 27 extrahiert, um eine charakteristische Menge der eingegebenen Sprache zu analysieren, ein Rahmensignal in dem Bereich von einigen zehn Millisekunden in einem konstanten Zeitintervall und bestimmt, ob das eingegebene Signal dem Sprachbereich, welcher den Sprachbestandteil bzw. die Sprache enthält, oder dem Rauschbereich, welcher keine Sprache enthält, angehört. Das von dem Mikrophon 7 eingegebene Signal erlaubt ein Nebeneinander von Sprache als dem Erkennungsobjekt und Rauschen, und daher wird eine Bestimmung für Sprachbereich und Rauschbereich durchgeführt. Zum Bestimmen solcher Sprach- und Rauschbereiche sind verschiedene Verfahren vorgeschlagen worden. Zum Beispiel wird eine kurzzeitige Leistung eines Eingangssignals in jeder konstanten Zeitdauer extrahiert, und abhängig davon, ob die kurzzeitige Leistung für eine Zeitdauer, welche länger als die konstante Zeitdauer ist, höher als ein vorbestimmter Schwellenwert ist oder nicht, werden Sprachbereich und Rauschbereich unterschieden. Wenn der Sprachbereich festgestellt wird, wird das eingegebene Signal an den Spracherkennungsabschnitt 30 ausgegeben.
Nun soll der Aufbau des Spracherkennungsabschnitts 30 anhand 1B genauer erläutert werden. Der Spracherkennungsabschnitt 30 weist einen LPC-(Lineare Prädiktionskodierung – linear predictive coding)-Analyseabschnitt 31, einen Cepstrum-Berechnungsabschnitt 32, einen Standardmuster-Speicherungsabschnitt 33, einen Kollationsabschnitt 34, einen Fixierabschnitt 35 und einen Kenngrößen-Rückwärtsausgabeabschnitt 36 auf.
Der LPC-Analyseabschnitt 31 führt die lineare Prädiktionsanalyse unter Verwendung eines Ausgangs aus einer Rauschunterdrückungssorrichtung durch. Die lineare Prädiktionsanalyse ist ein gewöhnliches Verfahren in dem Bereich der Sprachsignalverarbeitung. Dieses Verfahren ist in ”Digital voice Process” von Furui (Tokai Univ. Publication Society) genau erläutert. In dieser Ausführungsform wird das Selbstkorrelationsverfahren für die lineare Prädiktionsanalyse verwendet, und der LPC-Koeffizient der m-ten Ordnung wird unter Verwendung des Selbstkorrelationskoeffizienten C(r) berechnet.
Der Cepstrum-Berechnungsabschnitt 32 berechnet den LPC-Cepstrum-Koeffizienten als den charakteristischen Parameter bzw. die Kenngröße des Spektrums jedes Rahmens bzw. Fensters auf der Grundlage des durch den LPC-Analyseabschnitt 31 berechneten LPC-Koeffizienten.
Eine Folge bzw. Reihe bzw. Abfolge des LPC-Cepstrums, welches durch den Cepstrum-Berechnungsabschnitt 32 erhalten wird, wird an den Kenngrößen-Rückwärtsausgabeabschnitt 36 ausgegeben und wird dann vorübergehend gespeichert, bis die vorbestimmte Anweisung gegeben wird. Wenn die vorbestimmte Anweisung gegeben wird, ordnet der Kenngrößen-Rückwärtsausgabeabschnitt 26 solche LPC-Koeffizienten in der Abfolge mit invertierter Zeitachse um und gibt dann diese invertierte Abfolge der LPC-Koeffizienten an den Kollationsabschnitt 34 aus. Andererseits werden die Standardmuster (Abfolge von Kenngrößen) der Erkennungsobjektworte, welche vorher berechnet worden sind, in dem Standardmuster-Speicherungsabschnitt 33 gespeichert, und der Kollationsabschnitt 34 berechnet einen Ähnlichkeitsgrad zwischen dem in dem Standardmuster-Speicherungsabschnitt 33 gespeicherten Standardmuster und dem durch den Cepstrum-Berechnungsabschnitt 32 berechneten LPC-Cepstrum-Koeffizienten, dessen Zeitachse durch den Kenngrößen-Rückwärtsausgabeabschnitt 36 invertiert ist. Diese Abschnitte teilen die Zeitreihendaten mit dem bekannten DP-Abgleichverfahren, HMM (Hidden Markov Model) oder einem neuralen Netz oder dergleichen in mehrere Bereiche und erzielen die Übereinstimmung zwischen jedem Bereich und dem Wort, worin ein solcher Bereich als die Wörterbuchdaten gespeichert ist.
Das in dieser Ausführungsform in dem Standardmuster-Speicherungsabschnitt 33 gespeicherte Standardmuster speichert nicht nur die Daten der Wörter, welche ein Vergleichsobjektmusterkandidat sind, sondern auch die Daten, welche seine hierarchische Struktur anzeigen, wenn das Wort des Vergleichsobjektmusters durch hierarchisches Verbinden bzw. Koppeln einer Mehrzahl von Worten ausgebildet ist. In 2 ist beispielsweise ein geographisches Wörterbuch in den Vereinigten Staaten dargestellt, in welchem ein Ort durch den Ausdruck in einer Baumstruktur angezeigt ist. Dieses geographische Wörterbuch ist in der Baumstruktur einer Mehrzahl von Ebenen von Straßenname, Städtename und Bundesstaatsname oder Ebenen von Städtename und Bundesstaatsname aufgebaut. Hierbei kann ein detaillierteres Wörterbuch durch Hinzufügen von Hausnummern und Postleitzahlen (ZIP codes) als strukturelle Elemente erhalten werden. Andererseits kann ein vereinfachtes Wörterbuch auch nur mit Städtename und Bundesstaatsname aufgebaut sein. In 2 sind die Worte, die jeden Ortsnamen ausbilden, nacheinander von der linken Seite her in der Vokalisierungsreihenfolge angezeigt. Diese Wörter sind mit durchgezogenen Linien verbunden, um eine Baumstruktur aufzubauen. Wenn diese Baustruktur mit den eingegebenen Sprachbestandteilen kollationiert bzw. einer Kollation bzw. einem Textvergleich unterzogen wird, wird diese Kollation von der rechten Seite aus, also beginnend mit dem auf der Zeitachse später vokalisierten Namen des Bundesstaats durchgeführt.
Nachdem der Textvergleich beginnend mit dem auf der Zeitachse später vokalisierten Namen des Bundesstaats durchgeführt wird, kann das Standardmuster in Phonemeinheiten, also etwa in der Art einer Lautschrift, erzeugt werden, wie in 3A und 3B gezeigt. In 3A ist nur ein Teil der Bundesstaatsnamen dargestellt, und solche Bundesstaatsnamen sind unter Verwendung von Lautsymbolen in Phoneme unterteilt. Diese Lautsymbole werden in 3B von der Rückseite her kollationiert. Wie in 3B gezeigt, sind die Phonemdaten, welche ein Wort ausbilden, jeder Seite (angezeigt durch ein Pfeilsymbol (→) in 3B) der Baumstruktur zugeordnet. In 3B stellt ein einfacher Kreis (O) einen Verzweigungspunkt dar, während ein Doppelkreis (⌾) einen Empfangs- bzw. Aufnahme- bzw. Übernahmeverzweigungspunkt (reception branching point), also einen Verzweigungspunkt für ein Wort, darstellt. Der mit dem Pfeilsymbol A in 3B bezeichnete Verzweigungspunkt ist eine ”Wurzel” (root), und ein Wort wird durch Verfolgen der jeder Seite zugeordneten Silben in Abhängigkeit von der ”Präorder-Traversierungsabtasung” (preorder traversal scanning) von einer solchen Wurzel aus vervollständigt. Hierbei bedeutet ”Präorder-Traversierungsabtastung” bzw. ”Präorder-Traversierung” oder ”Präfix-Traversierung” das Abtastverfahren, bei welchem das Abtasten zuerst zu der Wurzel hin und dann nacheinander zu einem Teilbaum hin durchgeführt wird, wobei ein Kind als die Wurzel festgelegt wird. Hierin bedeutet ”Vater” bzw. ”Elter” (parent) einen vorausgehenden Verzweigungspunkt, ”Kind” (child) bedeutet den nächsten Verzweigungspunkt und ”Bruder” oder ”Geschwister” (brother) den Verzweigungspunkt des selben Vaters.
Insbesondere wird in dem in 3B gezeigten praktischen Beispiel, wenn der Textvergleich bzw. die Kollation hintereinander von dem mit ”A” bezeichneten Verzweigungspunkt als der ”Wurzel” bis hin zu dem mit ”B” Empfangsverzweigungspunkt ausgeführt wird, der Bundesstaat Alabama in Einheiten von Phonemen umgekehrt bzw. invers bzw. in umgekehrter Reihenfolge ausgedrückt. Daher ist Alabama ein Erkennungsobjektwort. Darüber hinaus ist jeder Städtename im Bundesstaat Alabama hiernach in Einheiten von Phonemen über den Empfangsverzweigungspunkt B umgekehrt ausgedrückt. Hierbei wird, nachdem in den vier Namen von Bundesstaaten, die in 3A aufgeführt sind, nämlich Alabama, Oklahoma, Florida und Georgia, das letzte Phonem gemeinsam verwendet wird, die Verzweigung von dem gleichen Empfangsverzweigungspunkt aus durchge führt. In gleicher Weise wird für die Namen von Städten in dem gleichen Bundesstaat, bei welchen das gleiche bzw. letzte Phonem gemeinsam verwendet wird, die Verzweigung von dem gleichen Empfangsverzweigungspunkt aus durchgeführt, und die Verzweigung für die Namen von Staßen in der gleichen Stadt, in welchen das gleiche bzw. letzte Phonem gemeinsam verwendet wird, wird von dem gleichen Empfangsverzweigungspunkt aus durchgeführt.
Nachdem es erfolgreich ist, wenn der Textvergleich für das hierarchische Erkennungsobjektwort von der höheren hierarchischen Ebene aus begonnen wird, ist für die Adressen in den Vereinigten Staaten, für welche die Sprachbestandteile von der niedrigeren hierarchischen Ebene zu der höheren hierarchischen Ebene hin eingegeben werden, ein Wörterbuch erzeugt worden, in welchem der Textvergleich mit dem oben erläuterten Prozeß in Einheiten von Phonemen von dem Namen des Bundesstaats als der höheren hierarchischen Ebene aus nacheinander zu dem Namen der Stadt und der Straße hin durchgeführt werden kann.
Nach Berechnung des Ähnlichkeitsgrads in dem Kollationsabschnitt 34 unter Verwendung der Standardmuster solcher Daten liefert der Fixierabschnitt 35 als ein Erkennungsergebnis ein Wort mit dem höchsten in dem Kollationsabschnitt 34 berechneten Ähnlichkeitsgrad unter den Erkennungsobjektworten an den Steuerungsabschnitt 50. Der Steuerungsabschnitt 50 bestimmt das endgültige Erkennungsergebnis und führt eine vorbestimmte Nachbearbeitung durch. Als die vorbestimmte Nachbearbeitung wird betrachtet, die Daten über die Gerätesteuerungsschnittstelle 29 an das Navigationsgerät 15 zu senden, wenn die vorbestimmte Anweisung gegeben wird, um die Ausführung des vorbestimmten Prozesses anzuordnen. Zum Beispiel wird ein Prozeß, um die Ausführung des Voreinstellungsprozesses anzuordnen, durch Melden eines für den Navigationsprozeß benötigten Ziels ausgeführt. Ein Ergebnis eines solchen Prozesses ist, daß das Ziel für das Navigationssystem durch Verwenden des Spracherkennungssystems 30 ohne Verwendung einer Bedienungsschaltergruppe 8 oder einer Fernsteuerungsvorrichtung 15a mit dem Spracheingabeprozeß angeordnet werden kann. Darüber hinaus führt der Steuerungsabschnitt 50 den Prozeß auch so aus, daß das von dem Spracherkennungssystem 30 ausgegebene Erkennungsergebnis als die Textdaten an den Sprachausgabeabschnitt 28 gesendet und dann von dem Lautsprecher 11 wiedergegeben wird.
Als ein von dem Spracherkennungsabschnitt 30 an den Steuerungsabschnitt 50 zu sendendes Erkennungsergebnis können alle signifikanteren Vergleichsobjektmuster als das endgültige Erkennungsergebnis oder nur das signifikanteste Objektmuster gesendet werden. Allerdings wird als Vorbedingung für ein leichteres Verständnis in der nachstehenden Erläuterung davon ausgegangen, daß nur das signifikanteste Objektmuster übertragen wird, sofern nicht explizit anders dargestellt.
Darüber hinaus ist in dieser Ausführungsform, wenn ein Benutzer den Sprechschalter 9 betätigt, der Benutzer bereit, die Spracheingabe auszuführen. Die Betätigung wird in der vorliegenden Ausführungsform bevorzugt durch Niederdrücken bewerkstelligt, kann aber je nach Art des Sprechschalters auch durch Verschieben, Umlegen, Kippen, Berühren, Herausziehen oder jede andere denkbare Art der Schalterbetätigung erfolgen. Nachdem auch angenommen werden kann, daß auch nach Betätigen des Sprechschalters 9 keine Spracheingabe erfolgen muß, wenn der sprachfreie Bereich länger als eine vorbestimmte Zeitdauer, nachdem eine Spracheingabe durch Betätigen des Sprechschalters 9 möglich geworden ist, anhält, ändert sich die Situation, was zu der Bedingung führt, welche eine Spracheingabe abschaltet. Daher erfaßt der Spracheingabeabschnitt 27 durch Überwachen der Betätigungszeit bzw. Niederdrück zeit, daß der Sprechschalter 9 betätigt bzw. niedergedrückt ist.
Das Spracherkennungssystem 1, insbesondere der Abschnitt 30, ist programmiert, um wie in 4 dargestellt zu arbeiten. Es wird angenommen, daß das Ziel durch das Spracheingabeverfahren eingestellt wird, um die Route mit dem Navigationsgerät 15 zu suchen.
Der Prozeß von 4 beginnt, wenn der Sprechschalter 9 eingeschaltet (betätigt) wird. In dem ersten Schritt S10 gibt ein Benutzer über das Mikrophon 7 Sprachbestandteile in den Sprachausgabeabschnitt 27 ein. In Schritt S20 wird bestimmt, ob der sprechfreie Bereich (no-voice domain) der vorbestimmten Zeit von t Sekunden erfaßt wird oder nicht. Falls kein sprechfreier Bereich erfaßt wird (S20: NEIN), wird in Schritt S30 die Kenngröße des eingegebenen Sprachbestandteils in dem Spracherkennungsabschnitt 30 berechnet und gespeichert. Der LPC-Analyseabschnitt 31 berechnet die LPC-Koeffizienten, der Cepstrum-Berechnungsabschnitt 32 berechnet die LPC-Cepstrum-Koeffizienten als die Kenngrößen, und diese Parameter werden vorübergehend in dem Kenngrößen-Rückwärtsausgabeabschnitt 36 gespeichert.
Falls der sprechfreie Bereich der vorbestimmten Zeit von t Sekunden erfaßt wird (S20: JA), wird in Schritt S40 die Zeitdauer vom Einschalten des Sprechschalters 9 bis zum Erzeugen des sprechfreien Bereichs als der Sprachbereich (voice domain) extrahiert, und die Zeitachse der Kenngröße wird invertiert. Insbesondere gibt in Schritt S50 der Kenngrößen-Rückwärtsausgabeabschnitt 36 nach der Umordung von Koeffizienten in die Abfolge, in welchen die Zeitachse invertiert ist, die Abfolge von vorübergehend in dem Kollationsabschnitt 34 gespeicherten LPC-Cepstrum-Koeffizienten aus.
In Schritt S60 führt der Kollationsabschnitt 34 den Musterabgleich zwischen dem in dem Standardmuster-Speicherungsabschnitt 33 gespeicherten Standardmuster und dem von dem Kenngrößen-Rückwärtsausgabeabschnitt 36 ausgegebenen LPC-Cepstrum-Koeffizienten durch, um einen Ähnlichkeitsgrad zu berechnen.
In Schritt S70 wird das durch das Kollationsergebnis bestimmte signifikantere Vergleichsobjektmuster als das Erkennungsergebnis an den Steuerungsabschnitt 50 ausgegeben, und der Steuerungsabschnitt 50 ruft zurück und zeigt ein solches Erkennungsergebnis an. Mit diesem Rückruf steuert der Steuerungsabschnitt 50 den Sprachausgabeabschnitt 28 derart, daß er das erkannte Ergebnis als den Sprachbestandteil über den Lautprecher 11 ausgibt, und steuert den Bildausgabeabschnitt 25 derart, daß er den Anzeigeabschnitt 5 anweist, die das Erkennungsergebnis angebenden Zeichen anzuzeigen.
Dadurch wird auf der Grundlage der Anweisung von einem Benutzer in Schritt S80 bestimmt, ob die Erkennung richtig ist oder nicht. Die Bestimmung wird auf der Grundlage der Betätigungen an der Schalteranordnung 3 durch den Benutzer vorgenommen. Hierbei ist es auch möglich, daß die Bestimmung auf der Grundlage einer Spracheingabe durch das Mikrophon 7 vorgenommen wird. Beispielsweise kann bei einer Spracheingabe von etwa ”JA”, was einen bestätigenden Inhalt anzeigt, die Erkennung als richtig fixiert werden, falls dagegen die Spracheingabe etwa ”NEIN” lautet, was einen negativen Inhalt anzeigt, kann die Erkennung als falsch bestimmt werden.
Wenn die falsche Erkennung fixiert wird (S80: NEIN), wird der vorliegende Prozeß in dieser Zeit abgeschlossen. Wenn der Benutzer erneut die Spracheingabe ausführt, muß der Benutzer erneut den Sprechschalter 9 betätigen. Damit wird dieser Prozeß erneut von Beginn an ausgeführt.
Wenn indessen die bestätigende Bestimmung ausgeführt wird, insbesondere in Schritt S80 die richtige Erkennung fixiert wird, fixiert der Steuerungsabschnitt 50 in Schritt S90 das Erkennungsergebnis. Wenn das Erkennungsergebnis fixiert ist, wird in Schritt S100 ein vorbestimmter Fixierungsfolgeprozeß ausgeführt. In diesem Fall umfaßt der Fixierungsfolgeprozeß zum Beispiel einen Prozeß, in welchem die Daten des ”Menübildes”, falls es das Erkennungsergebnis ist, über die Gerätesteuerungsschnittstelle 29 an das Navigationsgerät 15 ausgegeben werden. Nach dem Prozeß in Schritt S100 ist dieser Prozeß beendet.
Wie zuvor erläutert, wird gemäß dem Spracherkennungssystem 1 dieser Ausführungsform die im US-Stil ausgedrückte, durch Spracheingabe eingegebene Adresse unter Verwendung des in 2 gezeigten Wörterbuchs mit umgekehrter Baumstruktur erkannt. Wenn jedoch die Adresse in der eingegebenen Sequenz verglichen wird, kann keine hohe Erkennungsgüte erwartet werden, weil das Wörterbuch in der Baumstruktur, welche mit der niedrigen hierarchischen Ebene beginnt, ausgebildet ist. Daher werden in dieser Ausführungsform die Kenngrößen einer Abfolge von eingegebenen Sprachbestandteilen als das Erkennungsobjekt mit dem Kenngrößen-Rückwärtsausgabeabschnitt 36 des Spracherkennungsabschnitts 30 auf der Zeitachse invers konvertiert bzw. umgewandelt, um das Erkennungswörterbuch mit der umgekehrten Baumstruktur, welche mit der niedrigen hierarchischen Ebene beginnt, wirksam bzw. erfolgreich auszunutzen. Die Kollation der Adresse wird, wie in 3 gezeigt, mit dem Erkennungswörterbuch mit umgekehrter Baumstruktur von 2 in der Rückwärtsrichtung durchgeführt. Insbesondere kann der Prozeß durchgeführt werden, indem das Erkennungswörterbuch als das gewöhnliche Erkennungswörterbuch mit der herkömmlichen Baumstruktur, welches bei der hohen hierarchischen Ebene beginnt, betrachtet wird. Demzufolge kann der der Baumstruktur innewohnende Vorteil des Wörterbuchs mit Baumstruktur erfolgreich ausgenutzt werden, wodurch Verbesserungen in der Erkennungsgüte erwartet werden.
In dieser Ausführungsform wird, wie in dem Flußdiagramm von 4 gezeigt, der eingegebene Sprachbestandteil in dem Sprachbereich durch Umwandlung in die LPC-Cepstrum-Koeffizienten als die sequentiellen Parameter vorübergehend gespeichert. Nach Abschließen des Sprachbereichs werden solche LPC-Cepstrum-Koeffizienten auf der Zeitachse invers konvertiert und dann ausgegeben und kollationiert. Daher kann die nächste Operation nicht begonnen werden, bevor eine Abfolge der Spracheingabe abgeschlossen ist.
Die vorstehende Ausführungsform kann wie folgt modifiziert werden:

(1) Die vorstehende inverse Konvertierung auf der Zeitachse kann in dem Zustand der Sprachwellenforminformation durchgeführt werden. Ein Aufbau des Spracherkennungsabschnitts 30 in einem solchen Fall ist in 5A gezeigt.

Bei dieser Modifizierung ist ein Sprachwellenform-Rückwärtsausgabeabschnitt 37 in der dem LPC-Analyseabschnitt 31 vorhergehenden Stufe vorgesehen. Dieser Sprachwellenform-Rückwärtsausgabeabschnitt 37 speichert vorübergehend die von dem Spracheingabeabschnitt 27 eingegebene Sprachwellenform, bis die vorbestimmte Anweisung gegeben wird. Wenn die vorbestimmte Anweisung erzeugt wird, wird eine solche Wellenform an den LPC-Analyseabschnitt 31 als die Sprachwellenform ausgegeben, wobei die Zeitachse invertiert ist.
Abläufe dieser Modifizierung werden nun anhand des Flußdiagramms von 5B erläutert werden. Das Flußdia gramm von 5B ist durch teilweises Ändern des Flußdiagramms von 4 gewonnen, und die gleichen Abschnitte sind mit den gleichen Schrittnummern bezeichnet. Genauer gesagt sind die Schritte S10, S20 und S60 bis S100 in 4 denen einer anderen Ausführungsform gleich, und die Schritte S30 bis S50 sind durch die Schritte S130 bis S160 von 5B ersetzt.
In anderen Worten, während ein Bereich ohne Spracheingabe bzw. ein sprechfreier Betrieb nicht erfaßt wird (S20: NEIN), speichert der Sprachwellenform-Rückwärtsausgabeabschnitt 37 des Spracherkennungsabschnitts 30 vorübergehend die von dem Spracheingabeabschnitt 27 eingegebene Sprachwellenform. Wenn der Bereich ohne Spracheingabe der vorbestimmten Zeit von t Sekunden erfaßt wird (S20: JA), wird in Schritt S140 die Zeitdauer vom Einschalten des Sprechschalters 9 bis zum Erzeugen des Bereichs ohne Spracheingabe als der Sprachbereich extrahiert, und die Sprachwellenform dieses Bereichs wird in Schritt S150 durch Invertieren der Zeitachse neu gebildet und dann an den LPC-Analyseabschnitt 31 ausgegeben. Hierbei berechnet in Schritt S160 der LPC-Analyseabschnitt 31 die LPC-Koeffizienten, der Cepstrum-Berechnungsabschnitt 32 berechnet die LPC-Cepstrum-Koeffizienten als die Kenngrößen, und diese Berechnung wird an den Kollationsabschnitt 34 ausgegeben. Danach wird in Schritt S60, wie in dem Fall der zuvor geschilderten Ausführungsform, ein Musterabgleich zwischen dem in dem Standardmuster-Speicherungsabschnitt 33 gespeicherten Standardmuster und den durch den Cepstrum-Berechnungsabschnitt 32 berechneten LPC-Cepstrum-Koeffizienten durchgeführt, um einen Ähnlichkeitsgrad zu berechnen. Die nachfolgenden Abläufe sind die gleichen wie die in 4 und sollen hier nicht erneut erläutert werden.

(2) Als eine Modifizierung zum Erreichen einer entsprechenden Spracherkennung ist es möglich, mit dem Cepstrum-Berechnungsabschnitt 32 ein Delta-Cepstrum zu erhalten, was die Bedeutung eines dynamischen charakterischen Betrags hat (Betrag einer Änderung für das Vor-Cepstrum bzw. Präcepstrum und Nach-Cepstrum bzw. Postcepstrum = Angabe eines Gradienten). Falls dieses Delta-Cepstrum mit dem Kenngrößen-Rückwärtsausgabeabschnitt 36 direkt invertiert wird, sind diese Daten nicht länger die, welche als das Delta-Cepstrum geliefert werden sollten. Daher ist es, um das richtige Delta-Cepstrum zu erhalten, nur erforderlich, daß das Delta-Cepstrum von dem invers ausgegebenen Cepstrum gewonnen wird. Daher muß bei dem ein solches Delta-Cepstrum ausnutzenden Aufbau nur der Prozeßblock zum Berechnen des Delta-Cepstrums der dem Kenngrößen-Rückwärtsausgabeabschnitt 36 nachfolgenden Stufe hinzugefügt werden.

Wie für die Modifizierung (1) erläutert, weist das Delta-Cepstrum bei dem Aufbau, bei welchem die eingegebene Sprachwellenform selbst einmal gespeichert und dann in umgekehrter bzw. inverser Richtung ausgegeben wird, die Information auf, welche eigentlich geliefert werden sollte, und daher ist nichts weiter zu tun, als die Berechnung wie üblich durch den Cepstrum-Berechnungsabschnitt 32 durchzuführen.

(3) Anstelle des LPC-Cepstrum-Koeffizienten ist es zum Beispiel möglich, ein mit einer Mel-Skala oder einem Spektrum justiertes Cepstrum zu verwenden.
(4) Nachdem das Ähnlichkeitserkennungswörterbuch mit der anderen Struktur als der umgekehrten Baumstruktur beispielsweise für die Adresse in den verschiedenen europäischen Ländern erstellt werden kann, kann dieses Erkennungswörterbuch auch in diesen Ländern verwendet werden. In Großbritannien wird die Adresse zum Beispiel in der Reihenfolge Hausnummer → Stadtteil → Stadt wie in dem Fall der Vereinigten Staaten vokalisiert, und in Frank reich im Wesentlichen in der Reihenfolge Hausnummer → Stadtteil → Postleitzahl (mail no.) → Departement. In Deutschland wird die Adresse in der Reihenfolge Straße → Hausnummer → Postleitzahl → Bundesstaat vokalisiert. In Deutschland wird die Adresse auch in der Reihenfolge Straße → Hausnummer → Postleitzahl → Stadt → Bundesland vokalisiert.
(5) Aus dem Blickwinkel einer erfolgreichen Anwendung des Erkennungswörterbuchs mit umgekehrter Baumstruktur zur Spracherkennung von Adressen in den Vereinigten Staaten und europäischen Ländern ist es vorzuziehen, das Verfahren einzuführen, in welchem eine Abfolge von eingegebenen Sprachbestandteilen als das Erkennungsobjekt in dem Zustand der Sprachwellenform oder von Kenngrößen auf der Zeitachse invers umgewandelt wird. Bei dem Adreßerkennungssystem, bei welchem die Adresse nacheinander von der niedrigen hierarchischen Ebene aus vokalisiert wird, ist ein zusätzliches Wörterbuch nicht erforderlich. Wenn es erforderlich ist, die Erkennungsobjektworte, welche keine Eigenschaft wie zuvor erläutert aufweisen, zu erkennen, ist auch das Erkennungswörterbuch der anderen Struktur als der umgekehrten Baumstruktur vorgesehen. Daher ist eine Auswahl bzgl. eines Erkennungswörterbuchs je nach Situation erforderlich. In diesem Fall wird aus der vorbestimmten Manipulation erkannt, daß das Erfassungswörterbuch mit umgekehrter Baumstruktur verwendet werden sollte. Daher muß nur in dem vorgenannten Fall nur der Rückwärtserkennungsprozeß unter Verwendung des Erfassungswörterbuchs mit umgekehrter Baumstruktur ausgeführt werden. Auch wenn die Verwendung in den Vereinigten Staaten und verschiedenen europäischen Ländern betrachtet wird, müssen die anderen Wörter als die vorstehend erläuterten Adressen in der gewöhnlichen Sequenz erkannt werden. Daher ist es nicht vorzuziehen, daß die eingegebenen Sprachbestandteile einheitlich auf der Zeitachse invertiert werden.

Demgemäß wird in diesem Fall auch angenommen, daß die Spracherkennung von Adressen zum Beispiel aus Betätigungen von Schaltern durch einen Benutzer erkannt werden und der Rückwärtserkennungsprozeß nur in dem Fall einer Spracherkennung von Adressen durch Verwenden des Erkennungswörterbuchs mit umgekehrter Baustruktur zur Adressenerkennung ausgeführt wird. Zum Beispiel kann es sein, daß die Adressenerkennungsbetriebsart mit der Betätigung der Schaltervorrichtung 3 mit der Spracherkennung festgelegt wird. Wenn ein Benutzer beispielsweise die Worte ”Adresseneingabe” vokalisiert hat, wird die Adressenerkennungsbetriebsart eingestellt, und der durch das Flußdiagramm von 4 verdeutlichte Prozeß wird eingeleitet.

(6) Es ist auch möglich, die Zeitdauer, in welcher zum Beispiel der Sprechschalter 9 anhaltend betätigt ist, als die Spracheingabedauer zu bestimmen. Diese Bestimmung basiert als den Vorbedingungen auf der Struktur, daß als das Spracheingabeverfahren die Spracheingabe nur so lange erlaubt ist, wie ein Benutzer den Sprechschalter 9 fortgesetzt betätigt.
(7) Die vorliegende Erfindung kann auch auf das Erkennungswörterbuch mit ”umgekehrter Baustruktur” angewendet werden, wobei die Baustruktur in das Erkennungswörterbuch eingeführt ist, wobei eine Mehrzahl von Wörtern in einer hierarchischen Ebene auf die gleiche Weise kombiniert werden und die Spracheingaben in der letzteren Abfolge kombiniert werden.
(8) Es ist auch möglich, die Adressenerkennung unter dem nachstehenden Gesichtspunkt zu berücksichtigen. In einem Beispiel der Vereinigten Staaten wird nämlich eine Person, welche derzeit in dem Bundesstaat Alabama lebt und sich zu einem anderen Ort in dem gleichen Bundesstaat begibt, üblicherweise nicht absichtlich bis hin zu dem letzten Wort ”Alabama” vokalisieren. In diesem Fall ist es vorzuziehen, daß die Spracheingabe, in welcher der Name des Bundesstaats weggelassen wird, entsprechend erkannt wird.

Daher wird der Name des Bundesstaats aus dem Namen der Stadt zugeordnet unter der Annahme, daß die Information über die derzeitige Position zum Beispiel von dem Navigationsgerät 15 eingegeben und die Spracheingabe der Adresse unter Weglassen des Namens des Bundesstaats einer solchen derzeitigen Position, ausgeführt wird. In dem Fall von 3B ist es, wenn eine Person sich derzeit in dem Bundesstaat Alabama befindet, nur erforderlich, die Spracherkennung unter Berücksichtigung des Standardmusters, beginnend mit dem Verzweigungspunkt B als passendes Objekt bzw. Abgleichsobjekt, auszuführen.
Darüber hinaus kann die Flexibilität der Anwendung weiter so verbessert werden, das ein Benutzer von der Last befreit wird, die Spracheingabe von der höheren hierarchischen Ebene aus durchzuführen, auch wenn es natürlich ist, die höhere hierarchische Ebene wegzulassen, indem das natürliche Verhalten in den Gewohnheiten täglicher Konversation berücksichtigt wird, daß der Name des Orts in der höheren hierarchischen Ebene für den Bereich innerhalb des vorbestimmten Bereichs, in welchem sich eine Person aufhält, nicht beliebig identifiziert wird und die Identifizierung von dem Gebiet der niedrigeren hierarchischen Ebene aus erfolgt.

(9) In dem Fall des Erkennungswörterbuchs mit herkömmlicher Baumstruktur ist es bekannt, daß zur Reduzierung der Prozeßlast das sogenannte ”Eliminieren von Zwei gen” (cut of branch) auszuführen, um die Kandidaten in der Erkennung weiter einzugrenzen.

Wenn dieses ”Eliminieren von Zweigen” bei Verwendung des Erkennungswörterbuchs mit umgekehrter Baumstruktur, wie in den vorgenannten Ausführungsformen erläutert, ausgeführt wird, erhöht sich die Wahrscheinlichkeit, einen Zweig zu eliminieren, der die Wörter der korrekten Anwort enthält. Jedoch ist bei den vorgenannten Modifizierungen ein Eliminieren von Zweigen nicht nachteilig, weil der Prozeß durch Berücksichtigen des Erkennungswörterbuchs mit umgekehrter Baumstruktur als das gewöhnliche Erkennungswörterbuch mit herkömmlicher, also vorwärtsgerichteter Baumstruktur, beginnend auf der hohen hierarchischen Ebene, ausgeführt werden kann. Daher kann bei den vorgenannten Ausführungsformen ein Eingrenzen der Kandidaten durch den Prozeß eines Elinierens von Zweigen wirksam ausgeführt werden, und in diesem Fall ist es möglich, den gleichen Vorteil einer Verbesserung in der Erkennungsrate zu erzielen.

(10) Ein Programm zum Steuern eines Computers als eine Erkennungseinrichtung kann zum Beispiel auf einem Speichermedium wie einer Diskette, einer magnetooptischen Platte, einer CD-ROM, einer Festplatte, einem ROM und/oder einem RAM, welche mit Hilfe des Computers gelesen werden können, gespeichert sein, und dieses kann auch durch Laden und Bewegen bzw. Übertragen durch das Netzwerk verwendet werden.

Vorstehend wurde ein Spracherkennungssystem, ein Programm zum Steuern eines Computers als die Erkennungseinrichtung in einem Spracherkennungssystem, ein Verfahren zur Spracherkennung und ein Navigationssystem zur Verwendung mit einem Spracherkennugnssystem beschrieben. Vom Betätigen eines Sprechschalters bis zum Beginn eines Bereichs ohne Sprache wird Sprache eines Benutzers wird in einen Spracherfassungsabschnitt eingegeben. Aus der Sprache werden in einem LPC-Analyseabschnitt und einem Cepstrum-Berechnungsabschnitt LPC-Cepstrum-Koeffizienten berechnet und dann in einem Parameter-Rückwärtsausgabeabschnitt zwischengespeichert. Eine Abfolge der LPC-Cepstrum-Koeffizienten wird in die Abfolge, in welcher die Zeitachse invertiert ist, umgeordnet und dann an einen Kollationsabschnitt ausgegeben. Der Kollationsabschnitt berechnet einen Ähnlichkeitsgrad zwischen den LPC-Cepstrum-Koeffizienten und einem Erkennungswörterbuch mit umgekehrter Baumstruktur, welches in einem Standardmusterabschnitt gespeichert ist, durch Rückwärtskollation.

Claims

Spracherkennungssystem mit: a) einer Spracheingabeeinrichtung (7, 27) zum Eingeben einer Adresse mittels kontinuierlicher Sprache, a1) wobei eine eingegebene Adresse bei einem Wort einer niedrigen hierarchischen Ebene, beispielsweise dem Namen einer Straße, beginnt und bei einem Wort mit einer höheren hierarchischen Ebene, beispielsweise dem Namen eines Bundesstaats, endet, b) einer Wörterbucheinrichtung (33) zum Speichern eines Erkennungswörterbuchs mit einer Mehrzahl von Folgen von Phonemeinheiten, b1) wobei eine Folge von Phonemeinheiten zur zeitlichen Folge von Phonemen einer Adresse in ihrer gesprochenen Form entspricht, c) einer Erkennungseinrichtung (30) zum Ausgeben eines Ergebnisses entsprechend einem hohen Übereinstimmungsgrad einer Phonemfolge einer mit der Spracheingabeeinrichtung eingegebenen Adresse mit einer in der Wörterbuchfolge gespeicherten Folge von Phonemeinheiten, c1) wobei die Erkennungseinrichtung das Erkennungswörterbuch verwendet, um einen Rückwärtserkennungsprozess auszuführen, wobei die Phonemfolge einer mit der Spracheingabeeinrichtung eingegebenen Adresse nacheinander von einem Phonem zu einer jüngeren Eingabezeit zu einem Phonem zu einer älteren Eingabezeit mit den Folgen von Phonemeinheiten im Erkennungswörterbuch von der Rückseite her verglichen wird.
Spracherkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß die Erkennungseinrichtung (30) Wellenforminformationsstücke der durch die Spracheingabeeinrichtung (7, 27) eingegebenen Abfolge von Phonemen in charakteristische Parameter, welche verwendet werden, um die Phoneme zu erkennen, umwandelt, und die Erkennungseinrichtung einmal die Wellenforminformationsstücke der durch die Spracheingabeeinrichtung (7, 27) eingegebenen Abfolge von Phonemen hält und die Sprachwellenforminformationsstücke nacheinander von einer Wellenform der jüngeren Eingabezeit zu einer Wellenform der älteren Eingabezeit invers in die charakteristischen Parameter umwandelt.
Spracherkennungssystem nach Anspruch 1, dadurch gekennzeichnet, daß die Erkennungseinrichtung (30) Wellenforminformationsstücke der durch die Spracheingabeeinrichtung (7, 27) eingegebenen Abfolge von Phonemen in charakteristische Parameter, welche verwendet werden, um die Abfolge von Phonemen zu erkennen, umwandelt, und die Erkennungseinrichtung die Wellenforminformationsstücke von durch die Spracheingabeeinrichtung (7, 27) eingegebenen Phonemen in die charakteristischen Parameter der Spracheingabesequenz umwandelt und die charakteristischen Parameter nacheinander von der jüngeren Eingabezeit zu der älteren Eingabezeit invertiert.
Spracherkennungssystem nach einem der Ansprüche 1 bis 3, weiter gekennzeichnet durch: eine Operationserfassungseinrichtung zum Erfassen einer vorbestimmten Operation eines Benutzers, welche anzeigt, daß die vorliegende Vokalisierung die Situation nahelegt, das Erkennungswörterbuch mit umgekehrter Baumstruktur zu verwenden, wobei die Wörterbucheinrichtung (33) ein Erkennungswörterbuch von anderer Baumstruktur als der umgekehrten Baumstruktur enthält, und wobei die Erkennungseinrichtung (30), wenn die vorbestimmte Operation mit der Operationserfassungseinrichtung erfaßt wird, nur den Rückwärtserkennungsprozeß unter Verwendung des Erkennungswörterbuchs mit umgekehrter Baumstruktur ausführt.
Spracherkennungssystem nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß die Erkennungseinrichtung (30) eine Funktion aufweist, um eine Zeitdauer zu identifizieren, in welcher die Abfolge von Phonemen über die Spracheingabeeinrichtung (7, 27) eingegeben wird.
Spracherkennungssystem gemäß Anspruch 5, weiter gekennzeichnet durch: eine Eingabedauerbestimmungseinrichtung (9, 27, 30) zum Ausführen einer vorbestimmten Manipulation, um durch einen Benutzer einen Beginn und ein Ende der Zeitdauer, in welcher die Abfolge von Phonemen über die Spracheingabeeinrichtung (7, 27) eingegeben wird, zu bestimmen, wobei die Erkennungseinrichtung (30) die Zeitdauer, in welcher die Abfolge von Phonemen eingegeben wird, auf der Grundlage einer mit der Eingabedauerbestimmungseinrichtung (9, 27, 30) bestimmten Eingabedauer identifiziert.
Spracherkennungssystem gemäß Anspruch 5, dadurch gekennzeichnet, daß die Erkennungseinrichgung (30) die Zeitdauer, in welcher die Abfolge von Phonemen eingegeben wird, auf der Grundlage von über die Spracheingabeeinrichtung (7, 27) eingegebener Sprache oder Nicht-Sprache identifiziert.
Spracherkennungssystem nach Anspruch 5, weiter gekennzeichnet durch: eine Eingabebeginnbestimmungseinrichtung (9, 27, 30) zum Ausführen einer vorbestimmten Manipulation, die durch einen Benutzer bestimmt wird, um die Zeitdauer, in welcher die Abfolge von Phonemen über die Spracheingabeeinrichtung (7, 27) eingegeben wird, zu beginnen, wobei die Erkennungseinrichtung (30) ein Ende der Zeitdauer, in welcher die Abfolge von Phonemen über die Spracheingabeeinrichtung (7, 27) nicht mehr eingegeben wird, als eine vorbestimmte Zeitdauer ab dem Bestimmen des Beginns der Zeitdauer durch die Eingabebeginnbestimmungseinrichtung (9, 27, 30) als der Zeitdauer, in welcher die Abfolge von Phonemen eingegeben wird, identifiziert.
Spracherkennungssystem nach einem der Ansprüche 1 bis 8, weiter gekennzeichnet durch: eine Benachrichtigungseinrichtung (28, 11, 25, 5) zum Mitteilen des Erkennungsergebnisses der Erkennungseinrichtung (30); und eine Fixierungsfolgeverarbeitungseinrichtung (50) zum Ausführen eines vorbestimmten Fixierungsfolgeprozesses auf ein Fixieren des relevanten Erkennungsergebnisses hin, wenn eine vorbestimmte Fixierungsanweisung ergangen ist, nachdem das Erkennungsergebnis durch die Benachrichtigungseinrichtung (28, 11, 25, 5) mitgeteilt ist.
Spracherkennungssystem gemäß Anspruch 9, dadurch gekennzeichnet, daß die Benachrichtigungseinrichtung (28, 11, 25, 5) einen Inhalt des Erkennungsergebnisses mit einem Audioausgabeverfahren und/oder einer Anzeige von Zeichen und Symbolen ausgibt.
Spracherkennungssystem gemäß einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die Erkennungseinrichtung den Rückwärserkennungsprozess ausführt, nachdem eine Gesamtheit der Abfolge von Phonemen nacheinander auf der Spracheingabesequenz von der älteren Eingabezeit zu der jüngeren Eingabezeit vollständig eingegeben ist.
Spracherkennungssystem gemäß einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß der Spracheingabeeinrichtung ermöglicht ist, die Mehrzahl von Wörtern ohne Zwischenraum zwischen zwei benachbarten Wörtern einzugeben.
Spracherkennungssystem gemäß einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß die Wörterbucheinrichtung nur ein einziges Erkennungswörterbuch mit umgekehrter Baumstruktur ohne Eigen-Schleife aufweist, wobei die Anzahl von Verzweigungspunkten in der umgekehrten Baumstruktur in Abhängigkeit von der Spracheingabesequenz nacheinander verringert wird, und die Erkennungseinrichtung das Ergebnis nach nur einer Ausführung des Rückwärtserkennungsprozesses ausgibt.
Spracherkennungssystem gemäß Anspruch 1, dadurch gekennzeichnet, daß die Erkennungseinrichtung ein Wellenforminformationsstück jedes der Phoneme in einen charakteristischen Parameter umwandelt, eine Gesamtheit einer Abfolge von Wellenformen entsprechend den Phonemen, die in der Reihenfolge angeordnet sind, in welcher die Phoneme gesprochen wurden, invers in einer Abfolge von charakteristischen Parametern umgewandelt wird, die in einer im Vergleich zu der Reihenfolge, in welcher die Phoneme gesprochen wurden, umgekehrten Reihenfolge angeordnet sind, und die Abfolge von charakteristischen Parameter in dem Rückwärtserkennungsprozess verwendet wird.
Computerprogramm, das in einem Computer abgearbeitet wird und dabei die Funktionen der Erkennungseinrichtung (30) in dem Spracherkennungssystem nach einem der Ansprüche 1 bis 14 implementiert.
Navigationssystem mit einem Spracherkennungssystem gemäß einem der Ansprüche 1 bis 14, und einem Navigationsgerät (15) zum Ausführen vorbestimmter Prozesse auf der Grundlage eines durch das Spracherkennungssystem (1) erkannten Ergebnisses, wobei die Spracheingabeeinrichtung (7, 27) durch einen Benutzer verwendet wird, um durch Sprache eine Anweisung bezüglich Daten einzugeben, welche mit einem vorbestimmten Namen eines Orts in Zusammenhang stehen und welche das Navigationsgerät (15) benötigt, um wenigstens einen Navigationsprozeß auszuführen.
Kollationsverfahren für eine durch hierarchisches Koppeln einer Mehrzahl von Wörtern und Besitzen einer umgekehrten Baumstruktur, in welcher eine Abfolge von Wörtern auf einer niedrigsten hierarchischen Ebene beginnt und auf einer höchsten hierarchischen Ebene endet, ausgebildeten Wortgruppe, wobei das Verfahren die Schritte aufweist: a) Eingeben einer Adresse mittels kontinuierlicher Sprache, a1) wobei eine eingegebene Adresse bei einem Wart einer niedrigen hierarchischen Ebene, beispielsweise dem Namen einer Straße, beginnt und bei einem Wart mit einer höheren hierarchischen Ebene, beispielsweise dem Namen eines Bundesstaats, endet, b) Speichern eines Erkennungswörterbuchs mit einer Mehrzahl von Folgen von Phonemeinheiten, b1) wobei eine Folge von Phonemeinheiten zur zeitlichen Folge von Phonemen einer Adresse in ihrer gesprochenen Form entspricht, c) Ausgeben eines Ergebnisses entsprechend einem hohen Übereinstimmungsgrad einer Phonemfolge einer mit der Spracheingabeeinrichtung eingegebenen Adresse mit einer in der Wörterbuchfolge gespeicherten Folge von Phonemeinheiten, c1) wobei das Erkennungswörterbuch verwendet wird, um einen Rückwärtserkennungsprozess auszuführen, wobei die Phonemfolge einer mit der Spracheingabeeinrichtung eingegebenen Adresse nacheinander von einem Phonem zu einer jüngeren Eingabezeit zu einem Phonem zu einer älteren Eingabezeit mit den Folgen von Phonemeinheiten im Erkennungswörterbuch von der Rückseite her verglichen wird.