DE60109105T2

DE60109105T2 - Hierarchisierte Wörterbücher für die Spracherkennung

Info

Publication number: DE60109105T2
Application number: DE60109105T
Authority: DE
Inventors: Hiroshi Kawagoe-shi Saito
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2000-10-12
Filing date: 2001-10-08
Publication date: 2005-07-21
Anticipated expiration: 2021-10-09
Also published as: EP1197950A2; EP1197950B1; US6961706B2; US20020046028A1; EP1197950A3; JP2002123284A; DE60109105D1; JP4283984B2

Description

Diese Erfindung bezieht sich auf eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren zum Erkennen der von einem Benutzer für die Steuerung eines Gerätes eingegebenen Sprache und insbesondere auf eine Verbesserung beim Spracheingabevorgang.
Als Fahrzeugnavigation zur Bezeichnung eines gewünschten Ortes zum Einstellen eines Ziels und die Suche nach einer Route von einer gegenwärtigen Fahrzeugposition zum Bestimmungsort und das Anzeigen desselben zusammen mit einer Karte, die die Augenblicksposition auf der Anzeige enthält, eine Führung zum Bestimmungsort ergibt, sind in letzter Zeit solche aufgekommen, die sprachgesteuerte Funktionen haben, die dazu eingerichtet sind, die vom Benutzer durch Verwendung eines Mikrofons eingegebene Sprache zu erkennen, um dadurch zahlreiche Abläufe durch die eingegebene Sprache zu ermöglichen.
Die Ortsbestimmung bei der Fahrzeugnavigation mit Sprachsteuerung wird durch sequenzielles Sprechen und Eingeben von Wörtern ausgeführt, die die Art der Einrichtungen angeben, die in einem Zielort existieren, wie Schulen, Hospitäler und Stationen oder Ortsadressen als Antwort auf eine Führungsmitteilung und schließlich durch das Sprechen eines Ortseigennamens. Auf diese Weise wird die Erkennungsrate sichergestellt, indem den Gegenstand der Erkennung bildende Wörter/Phrasen in jeder Sprachmitteilung eingestellt werden und anschließend die den Gegenstand der Erkennung bezeichnenden Wörter/Phrasen eingeengt werden.
Ein Beispiel eines Einstellvorgangs einer Bestimmung sei nun erläutert. In der Anfangsstufe wird die Seite des Spracherkennungssystems mit einem "Steuerbefehlswörterbuch" als ein Steuerbefehl für Gegenstand der Erkennung bildende Wörter/Phrasen für die Fahrzeugnavigation eingestellt. Indem der Benutzer einen Befehl "Stelle Fahrziel ein" spricht, wird die Absicht, eine Route zum Fahrziel einzustellen, dem System mitgeteilt.
Anschließend muss ein konkreter Fahrzielort bezeichnet werden. Weil jedoch die Anzahl der bei der Fahrzeugnavigation vorgegebenen Orte immens ist, ist die Bestimmung mit einem einmaligen Sprechvorgang unter dem Gesichtspunkt der Begrenzung der Erkennungsrate oder der Speichergröße nicht praktisch. Dementsprechend wird eine Eingrenzung der Zahl der zu bezeichnenden Orte ausgeführt.
Zunächst wird eine Eingrenzung in der Art der Einrichtungen ausgeführt, die in dem Ortsgegenstand existieren (nachfolgend als Genre bezeichnet). Das Spracherkennungswörterbuch wird von einem "Steuerbefehlswörterbuch" gegen ein "Genrenamenswörterbuch" ausgetauscht, wobei (1) eine Führungsmitteilung "Bitte den Genrenamen" ausgegeben wird, um den Benutzer zu veranlassen, ein Genre auszusprechen. Wenn (2) der Benutzer als Antwort hierauf beispielsweise "Bildungsanstalt" spricht, dann erkennt das Spracherkennungssystem das gesprochene Wort. Um ein weiter detailliertes Unter-Genre zu bezeichnen, das zu den Bildungsanstalten gehört, um eine weitere Eingrenzung vorzunehmen, wird das Spracherkennungswörterbuch von "Genrenamenswörterbuch" durch ein "Unter-Genrenamens-Wörterbuch, das zu Bildungsanstalten gehört" ersetzt, und (3) wird als nächstes eine Führungsmitteilung "Bitte den nächsten Genrenamen" ausgegeben, um den Benutzer zu veranlassen, einen Unter-Genrenamen zu sprechen. Wenn (4) als Antwort hierauf der Benutzer beispielsweise "Universität oder College" als Unter-Genre spricht, dann erkennt das Spracherkennungssystem die gesprochenen Wörter.
Wenn das Unter-Genre eingerichtet ist, wird eine weitere Eingrenzung hinsichtlich der Region gemacht. Das Spracherkennungswörterbuch wird von "Unter-Genrenamens-Wörterbuch" in ein "Hauptstadt- und Distrikts-Namenswörterbuch" ersetzt, und (5) es wird eine Führungsmitteilung "Bitte Metropolen- oder Distriktsnamen" ausgegeben, um den Benutzer zu veranlassen, den Namen einer Metropole oder eines Distrikts zu sprechen. Wenn (6) als Antwort hierauf der Benutzer beispielsweise "Metropole Tokyo" spricht, dann erkennt das Spracherkennungssystem die gesprochenen Wörter als "Metropole Tokyo". Im Falle, dass das Unter-Genre "Universität und College" und der Metropolen- oder Distriktsname "Metropole Tokyo" ist, wird die Systemseite zuvor bestimmt, eine weitere detaillierte Bezeichnung des Namens einer/s Stadt/Stadtteils/Kleinstadt/Dorf auszuführen. Aus diesem Grunde wird das Spracherkennungswörterbuch von "Metropole-und-Distrikt-Namenswörterbuch" in ein "Metropole Tokyo Stadt/Stadtteil/Kleinstadt/Dorf-Namenswörterbuch" ersetzt und (7) es wird eine Führungsmitteilung "Bitte Stadt/Stadtteil/Kleinstadt/Dorf-Name" ausgegeben, um den Benutzer zu veranlassen, den Namen einer/s Stadt/Stadtteils/Kleinstadt/Dorfs zu sprechen. Wenn als Antwort hierauf (8) der Benutzer beispielsweise "Stadtteil Shinjyuku" spricht, dann erkennt das Spracherkennungssystem die gesprochenen Wörter.
Die Systemseite ersetzt das Spracherkennungswörterbuch von "Metropole Tokyo Stadt/Stadtteil/Kleinstadt/Dorf-Name" durch ein "Universitäts- und College-Namenswörterbuch", das die Einrichtungsnamen als Erkennungsgegenstände enthält, die zu der Universität und dem College gehören, die im Stadtteil Shinjyuku von Tokyo vorhanden sind, und es wird (9) eine Führungsmitteilung "Bitte Namen" ausgegeben, um den Benutzer zu veranlassen, den konkreten Namen des bezeichneten Ortes zu sprechen. Wenn hier der Benutzer "OO-Universität (oder College)" spricht, dann erkennt das Spracherkennungssystem dieses, und der Navigator stellt die OO-Universität (oder das College) als Bestimmung ein. Auf diese Weise werden die Ortsgegenstandsbedingungen eingegeben, um die Anzahl von Ortsgegenständen zu vermindern und dadurch die Eigennamen der eingeengten Ortsgegenstände einzugeben.
Weil indessen die vorangehenden Einengungsbedingungen und die Bedingungseingabereihenfolge zuvor festgelegt sind, ergeben sich Situationen, dass der Benutzer aufgefordert wird, eine ihm nicht bekannte Bedingung einzugeben. Wenn der Benutzer dann auf die Aufforderung nicht antworten kann, dann kann er die nachfolgenden Fortsetzungsschritte zur Eingabe der einengenden Bedingungen nicht ausführen. Die Ortsbestimmung muss daher aufgegeben werden, ohne einen konkreten Namen eines Zielortes zu sprechen. Es bestanden daher Schwierigkeiten beim Betreiben und beim Antworten.
EP-A-0 935 123 beschreibt ein Spracherkennungsgerät und -verfahren mit einem Wörterbuchabschnitt und mit Spracheingabe.
Es ist eine Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung und ein Spracherkennungsverfahren anzugeben, die in der Betriebsfähigkeit und im Antwortverhalten verbessert sind durch eine Architektur, dass eine vom System geforderte Bedingungseingabe übersprungen wird, um "Unbekannt" oder "Überspringe" oder dgl. als Bezugs-Sprachinformation zu erstellen, um zur nächsten Bedingungseingabe fortzuschreiten (nachfolgend als die hierarchische Ebene überspringende/s Wort/Phrase bezeichnet), so dass auf Empfang der Eingabe eines/r die hierarchische Ebene überspringenden Wortes/Phrase durch einen Benutzer das Fortschreiten zu den nachfolgenden Fortsetzungsschritten für die Bezeichnung eines Orts ermöglicht wird.
Um diese Aufgabe zu lösen, wird gemäß der Erfindung eine Spracherkennungsvorrichtung angegeben, die enthält:
einen hierarchischen Wörterbuchabschnitt, in dem eine Vielzahl von Spracherkennungswörterbüchern, die eine Vielzahl von Bezugs-Sprachsignalen mit gegenseitiger Verknüpfung aufweisen, in hierarchischer Weise gespeichert sind;
eine Extrahiereinrichtung, die ein ausgewähltes Spracherkennungswörterbuch aus dem hierarchischen Wörterbuchabschnitt extrahiert;
eine Listenspeichereinrichtung, die das extrahierte Spracherkennungswörterbuch speichert;
eine Spracheingabeeinrichtung zum Eingeben von Sprache;
eine Erkennungseinrichtung, die Eingabe-Sprache mit Bezugs-Sprachinformation in dem Spracherkennungswörterbuch vergleicht, das in der Listenspeichereinrichtung gespeichert ist, um die Sprache zu erkennen;
wobei die Extrahiereinrichtung ein Spracherkennungswörterbuch, das zu einer niedrigeren Hierarchieebene des Spracherkennungswörterbuchs gehört, auf Basis der Bezugs-Sprachinformation und der erkannten Sprache entsprechend extrahiert, und die Listenspeichereinrichtung das extrahierte Spracherkennungswörterbuch in einem Speicher speichert, wobei die Spracherkennungsvorrichtung so eingerichtet ist, dass
Bezugs-Sprachinformation, die repräsentativ für das Überspringen von Hierarchieebenen ist, in einem vorgegebenen Hierarchieebenen-Bestimmungs-Spracherkennungswörterbuch erzeugt werden, so dass, wenn die Erkennungseinrichtung eine Spracheingabe erkennt, die der Bezugs-Sprachinformation entspricht, die repräsentativ für das Überspringen von Hierarchieebenen ist, die Extrahiereinrichtung angewiesen wird, ein Spracherkennungswörterbuch, das zu einer niedrigeren Hierarchieebene als der der Bezugs-Sprachinformation gehört, die momentan in der Listenspeichereinrichtung gespeichert ist, zu extrahieren und in der Listenspeichereinrichtung zu speichern.
Vorzugsweise enthält die Spracherkennungsvorrichtung als das Spracherkennungswörterbuch ein typenbasiertes Wörterbuch, das Typen von Einrichtungen speichert, und ein Standortwörterbuch, das die Namen von Einrichtungen speichert, die zu den Typen der Einrichtungen gehören.
Noch besser enthält das Spracherkennungswörterbuch ein Regionenwörterbuch, das Namen von Regionen speichert, und ein Standortwörterbuch, das die Einrichtungsnamen von Einrichtungen speichert, die in jeder der Regionen vorhanden sind.
Weiter vorteilhaft enthält die Spracherkennungsvorrichtung als das Spracherkennungswörterbuch ein Regionenwörterbuch, das Namen von Regionen speichert, ein typbasiertes Wörterbuch, das Typennamen der Einrichtungen speichert, und ein Standortwörterbuch, das Einrichtungsnamen von Einrichtungen speichert, die in jeder der Regionen vorhanden sind und die zu jeder der Typen gehören, wobei, nachdem die Bezugs-Sprachinformation, die für das Über springen von Hierarchieebenen repräsentativ ist, auf der typbasierten Namensauswahlebene erkannt worden sind, die Extrahiereinrichtung das Regionenwörterbuch extrahiert.
Gemäß der Erfindung kann die Spracherkennungsvorrichtung auch eine Anzahl-Bestimmungseinrichtung enthalten, die die Anzahl von Elementen von Bezugs-Sprachinformation in dem Spracherkennungswörterbuch bestimmt, das zu einer niedrigeren Hierarchieebene der Bezugs-Sprachinformation gehört, die durch die Erkennungseinrichtung erkannt worden sind.
Vorzugsweise erkennt die Spracherkennungseinrichtung eines von allen ähnlichen Wörtern, die in der Einrichtung zum Speichern ähnlicher Wörter gespeichert sind, und stellt es als ein Erkennungsergebnis dar.
Noch besser sind eine Vielzahl von Elementen ähnlichen Bezugs-Sprachinformationen unter der Bezugs-Sprachinformation, die in der Listenspeichereinrichtung gespeichert ist, in der Einrichtung zum Speichern ähnlicher Wörter gespeichert, die eine Auswähleinrichtung umfasst, um des weiteren ein Erkennungsergebnis aus allen Elementen ähnlicher Bezugs-Sprachinformationen auszuwählen, die in der Einrichtung zum Speichern ähnlicher Wörter gespeichert sind.
Wenn bei dem vorgenannten Aufbau der Benutzer aufgefordert ist, eine unbekannte Bedingung beim Einengen eines Bestimmungsortes einzugeben, kann die Suche durch Eingeben der Bezugs-Sprachinformation fortgesetzt werden, die für das Überspringen hierarchischer Ebenen kennzeichnend ist (durch Sprechen von "unbekannt"), wodurch die Betriebsfähigkeit und das Ansprechverhalten verbessert werden. Nebenbei gesagt, weil in diesem Falle die Einengungsbedingungen weniger vermindert sind, als die vom System zuvor eingestellte Anzahl, ergibt sich eine Zunahme der Zahl der Gegenstand der Erkennung bildenden Wörter/Phrasen beim abschließenden Sprechen eines Namens, was möglicherweise zu einer verminderten Erkennungsrate führt. Jedoch kann die Suche fortgesetzt werden, so dass große Wirkungen bezüglich der Betriebsfähigkeit und das Ansprechverhaltens geschaffen werden. Indessen kann die Zunahme der Gegenstand der Erkennung bildenden Wörter/Phrasen Speicherkapazitätsprobleme aufwerfen. Das kann jedoch vermieden werden, indem man sie zur Ausführung des Erkennungsvorgangs in eine Vielzahl unterteilt.
Vorzugsweise wird eine Bestimmung der Anzahl der Teile der Bezugs-Sprachinformation in einem Spracherkennungslexikon, das zu einer niedrigeren Hierarchieebene erkannter Bezugs-Sprachinformation gehört, so dass bei Ermittlung, dass die Anzahl einen Bezugswert überschreitet, ein Teil des Spracherkennungswörterbuchs, das zu einer niedrigeren Hierarchieebene gehört, extrahiert und abgeglichen wird, um ähnliche Bezugs-Sprachinformation zu erkennen, und nach Abschluss des Vergleichs mit der extrahierten Bezugs-Sprachinformation; ein nicht extrahiertes Spracherkennungswörterbuch wird aus den Spracherkennungswörterbüchern extrahiert, die zu der niedrigeren Hierarchieebene gehören, und abgeglichen, um dadurch ähnliche Bezugs-Sprachinformation zu erkennen; und
Bezugs-Sprachinformation, die einem eingegebenen Wort entspricht, wird weiter aus mehreren ähnlichen Teilen der Bezugs-Sprachinformation ausgewählt.
Gemäß der Erfindung ist ein Spracherkennungsverfahren vorgesehen, bei dem Bezugs-Sprachinformation aus mehreren Spracherkennungswörterbüchern in einer hierarchischen Struktur extrahiert wird, um extrahierte Bezugs-Sprachinformation mit einem eingegebenen Wort zu vergleichen, um dadurch das Wort zu erkennen, wobei das Verfahren die Schritte umfasst:
Erzeugen von Bezugs-Sprachinformation, die für Hierarchieebenen-Überspringen in einem vorbestimmten Spracherkennungswörterbuch repräsentativ ist, so dass, wenn eine Eingabe eines Wortes erkannt wird, das der Bezugs-Sprachinformation entspricht, die für Hierarchieebenen-Überspringen repräsentativ ist, ein niedrigeres Hierarchieebenen-Spracherkennungswörterbuch bestimmt werden kann; und
Extrahieren eines Teils des Spracherkennungswörterbuchs, das zu einer niedrigeren Hierarchieebene von Bezugs-Sprachinformation gehört, die verglichen wird, um Spracherkennung auszuführen.
In den Zeichnungen:
1 ist ein Blockschaltbild, das eine Spracherkennungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt;
2 ist eine Zeichnung, die ein Beispiel eines hierarchischen Wörterbuchbaums eines Spracherkennungswörterbuchs zeigt, das eine bei der Erfindung zu verwendende hierarchische Struktur hat;
3A und 3B sind Zeichnungen, die ein Beispiel eines hierarchischen Wörterbuchbaums eines Spracherkennungswörterbuchs zeigen, das eine bei der Spracherkennung zu verwendende hierarchische Struktur hat;
4 ist eine Zeichnung, die ein Beispiel eines hierarchischen Wörterbuchbaums eines Spracherkennungswörterbuchs zeigt, das eine bei der Erfindung zu verwendende hierarchische Struktur hat;
5 ist ein Flussdiagramm, das zur Erläuterung des Betriebs der Ortssuche aufgrund des Spracherkennungsprozesses der Ausführungsform der Erfindung zitiert wird;
6 ist ein Flussdiagramm zur Erläuterung eines Spracherkennungsvorgangs in der Ausführungsform der Erfindung; und
7 ist ein Flussdiagramm zur Erläuterung eines mehrmaligen Erkennungsverarbeitungsvorgangs in der Ausführungsform der Erfindung.
Ausführungsformen der vorliegenden Erfindung werden nachfolgend im Detail unter Bezugnahme auf die Zeichnungen erläutert.
In 1 ist ein Blockschaltbild gezeigt, das eine Ausführungsform einer Spracherkennungsvorrichtung zeigt, die in einem Fahrzeugnavigationssystem vorgesehen ist. Die Spracherkennungsvorrichtung der Erfindung ist mit einem Mikrofon 100, einer Merkmalsmengen-Berechnungseinrichtung 101, einer Erkennungseinrichtung 102, einem RAM 103, einer Erkennungswörterbuch-Speichereinrichtung 104, einer Erkennungswörterbuch-Wähleinrichtung 105, einer Merkmalsmengen-Speichereinrichtung 106, einer Erkennungsergebnis-Speichereinrichtung 107, einer Erkennungsergebnis-Integriereinrichtung 108, einer Sprachsynthetisiereinrichtung 109, einer Steuereinheit 110, einem Lautsprecher 111, einer Ergebnisanzeigeeinrichtung 112 und einer Sucheinrichtung 113 ausgerüstet.
Das Mikrofon 100 gibt von einem Benutzer gesprochene Sprache ein und gibt sie an einen Merkmalsmengenrechner 101 ab.
Die Merkmalsmengen-Berechnungseinrichtung 101 wandelt das vom Mikrofon 100 aufgenommene Sprachsignal in PCM-(Pulskodemodulations-)Daten und die PCM-Daten in eine Merkmalsmenge um, die für die Spracherkennung geeignet ist, um sie dadurch in die Erkennungseinrichtung 102 und die Merkmalsmengen-Speichereinrichtung 106 auszugeben. Die Merkmalsmengen-Speichereinrichtung 106 speichert die berechnete Merkmalsmenge und liefert sie an die Erkennungseinrichtung 102.
Die Erkennungswörterbuch-Speichereinrichtung 104 ist mit mehreren Spracherkennungswörterbüchern gespeichert, die eine Vielzahl von Bezugs-Sprachinformationsteilen als Gegenstand der Erkennung bildende Wörter und Phrasen mit gegenseitiger Zuordnung in hierarchischer Weise haben. Die Typ-Wörterbücher enthalten Einengungsbedingungswörterbücher, die für jedes einer Vielzahl von Einengungsbedingungen vorgesehen sind, und Endortsnamenswörterbücher, die in Abhängigkeit von einer Kombination von Einengungsbedingungen klassifiziert sind. Die Ortsnamenswörterbücher sind solche, die Bezugs-Sprachinformation speichern, die für Namen einer jeden konkreten Einrichtung repräsentativ ist, die an jedem Ort existieren, z. B. "ein Wörterbuch, das Bezugs-Sprachinformation hat, die für alle Universitäts- und Collegenamen der Universitäten und Colleges repräsentativ ist, die zu den Bildungseinrichtungen gehören, die in xx-Stadt, 00-Präfektur existieren", "ein Wörterbuch, das Bezugs-Sprachinformation enthält, die für alle Kliniknamen der Kliniken repräsentativ ist, die zu den Hospitälern gehören, die in der xx-Stadt, 00-Präfektur existieren", usw.. Dabei enthalten die Einschränkungsbedingungswörterbücher ein Metropolen- und -Distrikts-Namenswörterbuch, das Bezugs-Sprachinformation speichert, die für Regionalnamen repräsentativ ist, die breite Regionen zeigen, wie Metropolen- und Distriktsnamen für die Ortssuche, ein City/Stadtteil/Stadt/Dorf-Namenswörterbuch, das für jede/n Metropole oder Distrikt vorgesehen ist und Bezugs-Sprachinformation speichert, die für Regionalnamen repräsentativ ist, die enge Regionen, wie City/Stadtteil/Stadt/Dorf-Namen zeigen, die zu jeder/m Metropole oder Distrikt gehören, ein Genrenamenswörterbuch, das Bezugs-Sprachinformation speichert, die für grob klassifizierte Genrenamen repräsentativ ist, wie die Typen von Einrichtungen, die an einem bezeichneten Ort existieren, Unter-Genrenamenswörterbücher, die für entsprechende grob klassifizierte Genres vorgesehen sind und Bezugs-Sprachinformation speichern, die für Unter-Genrenamen repräsentativ ist, die zu jedem grob klassifizierten Genre gehören, usw..
Nebenbei, im Allgemeinen ist die Gesamtzahl der Ortsnamen in der untersten Ebene extrem groß, was im Hinblick auf die Kapazität des Spracherkennungswörterbuchs-RAM und die Erkennungsrate eine für die gleichzeitige Erkennung unpraktische Anzahl ist. Um daher die Anzahl der Ortsamen (Größe) eines jeden Ortsnamenswörterbuchs kleiner als eine Bezugsanzahl zu machen, die durch eine verfügbare Kapazität des RAM 103 bestimmt ist, sind die Spracherkennungswörterbücher in einer hierarchischen Struktur, wie zuvor, angeordnet, wobei Ortsnamen für jede Kombination mehrerer Einengungsbedingungen klassifiziert sind, um ein Ortsnamenswörterbuch für jede Klasse zu ergeben.
Die Erkennungswörterbuch-Wähleinrichtung 105 wählt und extrahiert ein Spracherkennungswörterbuch für einen zu erkennenden Gegenstand aus der Erkennungswörterbuch-Speichereinrichtung 104 in Übereinstimmung mit einem Befehl derart, dass die Extraktion eines Sprach erkennungswörterbuchs als einen Erkennungsgegenstand von der Steuereinheit 110 und gibt es in den RAM 103 ein. Der RAM 103 wird bei jeder Eingabe eines Spracherkennungswörterbuchs durch Speicherung in ein Spracherkennungswörterbuch aktualisiert, das mit zu erkennender Bezugs-Sprachinformation versehen ist.
Die Erkennungseinrichtung 102 berechnet einen Ähnlichkeitsgrad zwischen einer Merkmalsmenge aus umgewandelter, eingegebener Sprache oder einer Merkmalsmenge aus umgewandelter, eingegebener Sprache, die in der Merkmalsmengenspeichereinrichtung 106 gespeichert ist, und der Bezugs-Sprachinformation im Spracherkennungswörterbuch, das in den RAM 103 geladen ist, und gibt Bezugs-Sprachsinformation mit hohem Ähnlichkeitsgrad und ihren Ähnlichkeitsgrad (Ergebnis) als ein Erkennungsergebnis an die Erkennungsergebnis-Speichereinrichtung 107 und die Steuereinheit 110 aus.
Die Erkennungsergebnis-Speichereinrichtung 107 speichert ein Erkennungsergebnis, das durch die Erkennungseinrichtung 102 erkannt wurde (einengende Bedingung oder Ortsname) oder ein Erkennungsergebnis, das von der Steuereinheit 110 geliefert wird, und gibt es an die Erkennungsergebnis-Integriereinrichtung 108 und die Steuereinheit 110. Die Erkennungsergebnis-Integriereinrichtung 108, in der mehrere Ortsnamen als Erkennungsergebnisse in der Erkennungsergebnis-Speichereinrichtung 107 gespeichert sind, ermittelt jene höheren Ähnlichkeitsgrade der Anzahl K und liefert sie als ein neues Erkennungsergebnis an die Steuereinheit 110. Die Steuereinheit 110 gibt dann das neue Erkennungsergebnis, das von der Erkennungsergebnis-Integriereinrichtung 110 geliefert wurde, an die Erkennungsergebnis-Speichereinrichtung 107 für die Speicherung und Aktualisierung als ein zweites Erkennungsergebnis.
Die Sprachsynthetisiereinrichtung 109 erzeugt eine Führungsmitteilung oder einen synthetisierten Echoschall und liefert sie/ihn an den Lautsprecher 111. Der Lautsprecher 111 gibt den von der Schallsynthetisiereinrichtung 109 zugeführten Schall ab.
Die Sucheinrichtung 111 hat eine Datenbank, beispielsweise nicht gezeigte Landkartendaten für die Suche nach detaillierter Einrichtungsinformation einer Ortskarte, einer Adresse, einer Telefonnummer, eines Serviceinhalts usw. eines Ortes, der schließlich durch Spracherkennung in der Datenbank bezeichnet wird entsprechend einem Befehl von der Steuereinheit 110. Die Ergebnisanzeigeeinrichtung 112 ist eine Anzeige zur Darstellung der detaillierten Einrichtungsinformation, die durch die Sucheinrichtung 111 gefunden wurde, zusammen mit einem Erkennungsergebnis durch Ausführung des Sprechvorgangs, des/r Gegenstand der Erkennung bildenden Wortes/Phrase, der Führungsmitteilung, der Rückantwort usw..
Die Steuereinheit 110 steuert jede Konfiguration entsprechend eines Ausgabeergebnisses, das von jeder Konfiguration ausgegeben wird. Wenn beispielsweise ein Ort durch Spracheingabe bezeichnet wird, dann steuert die Steuereinheit 110 zunächst derart, dass die Erkennungswörterbuch-Wähleinrichtung 105 ein Genrenamenswörterbuch aus der Erkennungswörterbuch-Speichereinrichtung 104 entnimmt und es als Bezugs-Sprachinformation für einen Erkennungsgegenstand in den RAM 103 einstellt. Weiterhin wird auf der Grundlage eines Erkennungsergebnisses, das man von der Erkennungseinrichtung 102 erhält, und des Erkennungsergebnisses (einengende Bedingung), das in der Erkennungsergebnis-Speichereinrichtung 107 gespeichert ist, ein Befehl an die Erkennungswörterbuch-Speichereinrichtung 105 gegeben, um ein geeignetes Spracherkennungswörterbuch zu extrahieren, während ein Befehl an die Schallsynthetisiereinrichtung 109 gegeben wird, damit eine Führungsmitteilung erstellt wird.
Weiterhin wird das neue Erkennungsergebnis, das von der Erkennungsergebnis-Integriereinrichtung 108 abgegeben wird, an die Erkennungsergebnis-Speichereinrichtung 107 ausgegeben, um es als laufendes Erkennungsergebnis zu speichern und zu aktualisieren. Auf Empfang eines Erkennungsendergebnisses (Ortsname) werden weiterhin eine Rückmeldung des Erkennungsergebnisses durch einen synthetisierten Schall, eine Ergebnisanzeige auf der Ergebnisanzeigeeinrichtung 112, ein Suchbefehl an die Sucheinrichtung 113 usw. ausgeführt. Der Betrieb der Steuereinheit 110 wird später unter Verwendung eines Flussdiagramms im Detail erläutert.
Es wird hier die Art und Weise erklärt, in der mehrere Spracherkennungswörterbücher, die in der Erkennungswörterbuch-Speichereinrichtung 104 gespeichert sind, durch Zuordnung zueinander eine hierarchische Struktur bilden, wozu auf die 2 bis 4 Bezug genommen wird.
Nebenbei, die 2 bis 4 zeigen nur ein Teil eines konkreten Beispiels eines Spracherkennungswörterbuchs. Zunächst ist als Wörterbuch in einer obersten, ersten Hierarchieebene ein Genrenamenswörterbuch vorgesehen, das Bezugs-Sprachinformation enthält, die für "Unbekannt" als eine Hierarchieebene überspringendes Wort oder Phrase repräsentativ ist, und Genrenamen enthält, wie "Stationsnamen", "Hospitäler" und "Unterkünfte" (200 in 2, 300 in 3A und 3B, 400 in 4).
Als ein Wörterbuch in einer zweiten Hierarchieebene, der ersten Hierarchieebene folgend, ist ein Unter-Genrenamenswörterbuch vorgesehen, das Bezugs-Sprachinformation enthält, die für Unter-Genrenamen repräsentativ ist, die zu jedem der Genrenamen gehört, wie Stationsnamen, Hospitäler und Unterkünfte (201 in 2, 302 bis 305 in 3A und 3B, 402 bis 405 in 4). Weiterhin gibt es als Bezugs-Sprachinformation, die für Unter-Genrenamen repräsentativ ist, Teile von Bezugs-Sprachinformation, die für Unter-Genrenamen entsprechend Kliniken, Innere Abteilungen, Chirurgische Abteilungen und dgl. und von Bezugs-Sprachinformation, die für "Unbekannt" als ein die Hierarchieebene überspringende/s Wort/Phrase in einem Hospitals-Untergenrenamenswörterbuch repräsentativ ist, um Beispiele zu nennen.
Weiterhin als Wörterbuch in einer dritten Hierarchieebene, dem Unter-Genrenamenswörterbuch der zweiten Ebene folgend, ist ein Metropole-und-Distrikt-Namenswörterbuch vorgesehen, das Bezugs-Sprachinformation enthält, die für Metropole-und-Distrikt-Namen in ganz Japan repräsentativ ist, und Bezugs-Sprachinformation, die für "Unbekannt" repräsentativ ist, als ein/e die Hierarchieebene überspringende/s Wort/Phrase (202 in 2, 306 in 3A und 3B, 406 in 4).
Weiter sind als Wörterbuch in einer vierten Hierarchieebene, dem Metropole-und-Distrikt-Namenswörterbuch der dritten Ebene folgend, für jeden Metropolen- und Distriktsnamen City/Stadtteil/Stadt/Dorf-Namenswörterbücher vorgesehen, die Bezugs-Sprachinformation enthalten, die für City/Stadtteil/Stadt/Dorf-Namen repräsentativ sind, die in jeder/m Metropole oder Distrikt existieren, und Bezugs-Sprachinformation für "Unbekannt" als eine Hierarchieebene überspringendes Wort/Phrase (203 in 2, 308 bis 311 in 3A und 3B, 408 bis 411 in 4).
Weiterhin sind als Wörterbuch in einem untersten, fünften Hierarchieebenen-Wörterbuch für jede Kombination einengender Bedingungen der ersten Hierarchieebene bis zur vierten Hierarchieebene Ortsnamenswörterbücher vorgesehen, die Bezugs-Sprachinformation enthalten über Ortsnamen (Zielwörter), wie Eigennamen der Einrichtungen, die an einem Ort existieren und einen konkreten Ort zeigen (204 bis 210 in 10, 312 bis 319 in 3A und 3B, 413 bis 420 in 4).
Es wird nun ein Beispiel eines Suchablaufs erläutert, bei dem nacheinander die Bedingungen zur Bezeichnung eines Orts eingeengt werden.
Beispiel 1
Dieses Beispiel ist ein Beispiel eines Suchablaufs im Falle, dass der Benutzer jede einengende Bedingung, zu der er vom System aufgefordert wird, aufgreift. Hier wird ein Beispiel der Bestimmung von Kurita-Hospital erläutert, das ein Hospital (Klinik) in Kawagoe City, Saitama-Präfektur ist, wobei 2 verwendet wird.
Zunächst wird der Typ der Einrichtungen eingeengt, der an einem Ort existiert (nachfolgend als Genre bezeichnet).
Ein "Genrenamenswörterbuch" wird erstellt und (1) eine Führungsmitteilung "Bitte Genrename" wird ausgegeben, um den Benutzer zu veranlassen, einen Genrenamen zu sprechen. Wenn als Antwort hierauf der Benutzer (2) einen Genrenamen spricht, beispielsweise "Hospital", erkennt das Spracherkennungssystem das Wort mit dem "Genrenamenswörterbuch" 200 als Erkennungsgegenstand.
Um weiter einzuengen, wird das "Genrenamenswörterbuch" 200 als Erkennungsgegenstand durch ein "Hospital-Untergenrenamenswörterbuch" 201 ersetzt, und (3) wird eine Führungsmitteilung "Bitte nächster Genrename" ausgegeben, um den Benutzer zu veranlassen, einen Genrenamen auszusprechen. Wenn als Antwort hierauf der Benutzer (4) beispielsweise "Klinik" als Unter-Genrename spricht, erkennt das Spracherkennungssystem das Wort mit dem "Hospital-Untergenrenamenswörterbuch" 201 als Erkennungsgegenstand.
Wenn das Unter-Genre eingerichtet ist, wird eine weitere Einengung in der Region vorgenommen. Das "Hospital-Untergenrenamenswörterbuch" 201 als Erkennungsgegenstand wird durch ein "Metropole-und-Distrikt-Namenswörterbuch" 202 ersetzt und (5) eine Führungsmitteilung "Bitte Metropole-und-Distrikt-Name" wird ausgegeben, um den Benutzer zu veranlassen, einen Metropolen-oder-Distriktsnamen zu sprechen. Wenn als Antwort hierauf der Benutzer (6) beispielsweise "Saitama-Präfektur" als Metropolen-oder-Distriktsname spricht, erkennt das Spracherkennungssystem die Wörter mit dem Metropole-und-Distrikt-Namenswörterbuch 202 als Erkennungsgegenstand.
Wenn die Metropole oder der Distrikt eingerichtet ist, wird eine weitere Einengung zu einer weiter detaillierten Region vorgenommen. Das "Metropole-und-Distrikt-Namenswörterbuch" 202 als Erkennungsgegenstand wird ersetzt durch ein "Saitama-Präfektur City/Stadt/Dorf-Namenswörterbuch" 203 ersetzt, und (7) eine Führungsmitteilung "Bitte Name von City/Stadtteil/Stadt/Dorf" wird ausgegeben, um den Benutzer zu veranlassen, den Namen einer/s City/Stadtteil/Stadt/Dorfs zu sprechen. Wenn als Antwort hierauf der Benutzer (8) beispielsweise "Kawagoe-City" als Name von City-Stadtteil/Stadt/Dorf spricht, erkennt das Spracherkennungssystem die Wörter mit dem "Saitama-Präfektur City/Stadt/Dorf-Namenswörterbuch" 203 als Erkennungsgegenstand.
Die Systemseite ersetzt hierbei das "Saitama-Präfektur City/Stadt/Dorf-Namenswörterbuch 203 als Erkennungsgegenstand gegen ein "Klinikortsname in Kawagoe-City, Saitama-Präfektur- Wörterbuch" 204, und (9) wird eine Führungsmitteilung "Bitte Name" ausgegeben, um zum Aussprechen eines konkreten Namens eines bezeichneten Orts aufzufordern. Wenn als Antwort hierauf der Benutzer (10) "Kurita Hospital" als Ortsname spricht, erkennt das Spracherkennungssystem das Wort mit dem "Klinik-Ortsname in Kawagoe-City Saitama-Präfektur-Wörterbuch" 204 als Erkennungsgegenstand.
Beispiel 2
Dieses Beispiel ist ein Beispiel eines Suchvorgangs im Falle, dass der Benutzer nicht auf einen City/Stadtteil/Stadt/Dorf-Namen zugreift, wo ein Ortsgegenstand unter den Einengungsbedingungen existiert, zu denen vom System aufgefordert wird. Hier ist ein Beispiel der Bezeichnung von Kobayashi-Hospital gezeigt, ein Hospital (Klinik) in der Saitama-Präfektur. Nebenbei, der Sprachvorgang ist in diesem Beispiel in 3A mit einem dicken Pfeil gezeigt.
Zunächst wird eine Einengung im Typ der Einrichtungen gemacht, die in einem Ortsgegenstand existierten (nachfolgend als Genre bezeichnet). Ein "Genrenamenswörterbuch" 300 wird erstellt, und (1) eine Führungsmitteilung "Bitte Genrename" wird ausgegeben, um den Benutzer zu veranlassen, einen Genrenamen zu sprechen. Wenn (2) der Benutzer als Antwort hierauf beispielsweise "Hospital" als einen Genrenamen spricht, dann erkennt das Spracherkennungssystem das Wort mit einem "Genrenamenswörterbuch" 300 als Erkennungsgegenstand.
Für die weitere Einengung wird das "Genrenamenswörterbuch" 300 als Erkennungsgegenstand durch ein "Hospital-Untergenrenamenswörterbuch" 303 ersetzt und (3) eine Führungsmitteilung "Bitte nächster Genrename" ausgegeben, um den Benutzer zu veranlassen, einen Unter-Genrenamen zu sprechen. Wenn als Antwort hierauf der Benutzer (4) beispielsweise "Klinik" als Unter-Genrename spricht, erkennt das Spracherkennungssystem das Wort mit einem "Hospital-Unter-Genrenamenswörterbuch" 303 als Erkennungsgegenstand.
Wenn das Unter-Genre eingerichtet ist, wird weiter eine Einengung hinsichtlich der Region gemacht. Das "Hospital-Untergenrenamenswörterbuch" 303 als Erkennungsgegenstand wird ersetzt gegen ein "Metropole-und-Distrikt-Namenswörterbuch 306, und (5) eine Führungsmitteilung "Bitte Metropole-oder-Distrikt-Name" wird ausgegeben, um den Benutzer zu veranlassen, den Namen einer Metropole oder eines Distrikts zu sprechen. Wenn als Antwort hierauf (6) der Benutzer beispielsweise "Saitama-Präfektur" als Metropole-oder-Distrikt-Name spricht, erkennt das Spracherkennungssystem die Wörter mit dem "Metropole-und-Distrikt-Namenswörterbuch" 306 als Erkennungsgegenstand.
Wenn die Metropole oder der Distrikt eingerichtet ist, wird eine Einengung hinsichtlich einer weiter detaillierten Region vorgenommen. Das "Metropole-und-Distrikt-Namenswörterbuch" 306 als Erkennungsgegenstand wird durch ein "Saitama-Präfektur City/Stadt/Dorf-Wörterbuch" 309 ersetzt, und (7) wird eine Führungsmitteilung "Bitte Name von City/Stadtteil/Stadt/Dorf" ausgegeben, um den Benutzer zu veranlassen, den Namen einer/s City/Stadtteil/Stadt/Dorfs zu sprechen. Wenn als Antwort hierauf der Benutzer keinen Namen einer/s City/Stadtteil/Stadt/Dorfs vorgibt und (8) ein/e die Hierarchieebene überspringendes Wort/Phrase "Unbekannt" spricht, wird das Wort mit dem "Saitama-Präfektur City/Stadt/Dorf-Wörterbuch" 309 als Erkennungsgegenstand erkannt.
Im Falle dass ein/e die Hierarchieebene überspringendes Wort/Phrase in der vierten Hierarchieebene gesprochen wird, überspringt die Systemseite die Eingabe einer Wörterbucheinengungsbedingung im Wörterbuch der vierten Ebene, ohne zur Eingabe einer/s City/Stadt/Dorfs im "Saitama-Präfektur City/Stadt/Dorf-Namenswörterbuch" 309 der vierten Hierarchieebene aufzufordern, so dass als eingegebene Einengungsbedingungen alle City/Stadt/Dorf-Namen im "Saitama-Präfektur City/Stadt/Dorf-Wörterbuch" 309 in der vierten Hierarchieebene angesehen werden. "Hospital Kliniken im Alle-Saitama-Präfektur-Cities/Städte/Dörfer-Wörterbuch" 313 bis 316 werden extrahiert und als Wörterbuch einer fünften Ebene erfasst, um ein "Saitama-Präfektur-Hospital-Klinik-Wörterbuch" 312 zu erschaffen, und das "Saitama-Präfektur City/Stadt/Dorf-Wörterbuch" 309 wird ersetzt durch das "Saitama-Präfektur Hospital-Klinik-Wörterbuch" 312. Weiterhin wird (9) eine Führungsmitteilung "Bitte Name" ausgegeben, um zum Sprechen eines konkreten Namens eines bezeichneten Ortes aufzufordern. Wenn als Antwort hierauf der Benutzer (10) "Kobayashi-Hospital" als Ortsname spricht, erkennt das Spracherkennungssystem die Wörter mit dem "Saitama-Präfektur Hospital-Klinik-Wörterbuch" 312 als Erkennungsgegenstand.
Nebenbei, obige 3A ist ein Beispiel, dass, wenn ein/e Überspringungswort/Phrase beim Eingeben einer Einengungsbedingung in einer gewissen Hierarchieebene gesprochen wird, eine Einengungsbedingungseingabe in dieser Hierarchieebene übersprungen wird und die unmittelbar niedriger liegende Hierarchieebene aufgesucht wird, um zur Eingabe einer Einengungsbedingung aufzufordern. Wenn jedoch ein Genrename unbekannt ist, besteht eine hohe Wahrscheinlichkeit, dass ein Unter-Genrename ebenfalls unbekannt ist, und weiterhin, wenn ein Metropolen-oder-Distriktsname unbekannt ist, besteht eine hohe Wahrscheinlichkeit ein/e City/Stadtteil/Stadt/Dorf ebenfalls unbekannt ist. Wenn also, wie in 3B gezeigt, ein/e Überspringungswort/Phrase in einer vorbestimmten Hierarchieebene gesprochen wird, dann kann in Betracht gezogen werden, dass eine Sprungbestimmung so eingestellt wird, dass zu einer zwei Stufen niedrigeren Hierarchieebene übergegangen wird, abhängig von einer Hierarchieebene des/r Hierarchieebenen-Überspringworts/Phrase, anstelle eines Übergangs zur unmittelbar niedriger liegenden Hierarchieebene.
Beispiel 3
Dieses Beispiel ist ein Beispiel eines Suchvorgangs im Falle, dass der Benutzer nicht zu einem Unter-Genre der Einrichtungen greift, die in einem Ortsgegenstand existieren, unter den Einengungsbedingungen, deren Eingabe vom System aufzufordern ist. Hier ist ein Beispiel der Bezeichnung von Saito-Hospital in Kawagoe-City, Saitama-Präfektur gezeigt. Nebenbei, der Suchvorgang ist bei diesem Beispiel in 4 mit einem dick gezeichneten Pfeil gezeigt.
Zunächst wird eine Einengung im Typ der Einrichtungen vorgenommen, die in einem Ortsgegenstand existieren (nachfolgend als Genre bezeichnet). Ein "Genrenamenswörterbuch" wird erstellt, und es wird (1) eine Führungsmitteilung "Bitte Genrename" ausgegeben, um den Benutzer zu veranlassen, einen Genrenamen zu sprechen. Wenn als Antwort hierauf der Benutzer (2) beispielsweise "Hospital" als Genrename spricht, erkennt das Spracherkennungssystem das Wort mit einem "Genrenamenswörterbuch" 400 als Erkennungsgegenstand.
Um weiter einzuengen, wird das "Genrenamenswörterbuch" 400 als Erkennungsgegenstand durch ein "Hospital-Untergenrenamenswörterbuch" 403 ersetzt und (3) wird eine Führungsmitteilung "Bitte nächster Genrename" ausgegeben, um den Benutzer zu veranlassen, einen Unter-Genrenamen zu sprechen. Wenn als Antwort hierauf der Benutzer keinen Unter-Genrenamen bezeichnet und (4) ein/e die Hierarchieebene überspringende/s Wort/Phrase "Unbekannt" spricht, erkennt das Spracherkennungssystem das Wort mit dem "Hospital-Untergenrenamenswörterbuch" 403 als Erkennungsgegenstand.
Im Falle, dass ein/e die Hierarchieebene überspringende/s Wort/Phrase in der zweiten Hierarchieebene gesprochen wird, überspringt die Systemseite die Eingabe einer Wörterbucheinengungsbedingung in der zweiten Hierarchieebene, ohne zur Eingabe eines Unter-Genrenamens im "Hospital-Untergenrenamenswörterbuch" 403 der zweiten Hierarchieebene aufzufordern. Als eingegebene Einengungsbedingung werden alle Unter-Genrenamen im "Hospital-Untergenrenamenswörterbuch" 403 in der zweiten Hierarchieebene angesehen, das "Hospital-Untergenrenamenswörterbuch" 403 wird als Wörterbuch eines Erkennungsgegenstands in der dritten Hierarchieebene gegen ein "Metropole-und-Distrikt-Namenswörterbuch" 406 ersetzt und (5) wird eine Führungsmitteilung "Bitte Metropolen- oder Distrikts-Name" ausgegeben, um den Benutzer zu veranlassen, den Namen einer Metropole oder eines Distrikts zu sprechen. Wenn als Antwort hierauf der Benutzer (6) als Name einer Metropole oder eines Distrikts beispielsweise "Sai tama-Präfektur" spricht, erkennt das Spracherkennungssystem die Wörter mit dem "Metropole-und-Distrikt-Namenswörterbuch" 406 als Erkennungsgegenstand.
Wenn der Name der Metropole oder des Distrikts eingerichtet ist, wird dann eine Einengung hinsichtlich einer weiter detaillierten Region vorgenommen. Das "Metropole-und-Distrikt-Namenswörterbuch" 406 als Erkennungsgegenstand wird gegen ein "Saitama-Präfektur City/Stadt/Dorf-Namenswörterbuch" 409 ersetzt, und (7) wird eine Führungsmitteilung "Bitte Name von City/Stadtteil/Stadt/Dorf" ausgegeben, um den Benutzer zu veranlassen, den Namen einer/s City/Stadtteil/Stadt/Dorf zu sprechen. Wenn als Antwort hierauf der Benutzer (8) beispielsweise spricht "Kawagoe-City" als Name von City/Stadtteil/Stadt/Dorf, erkennt das Spracherkennungssystem die Wörter mit dem "Saitama-Präfektur City/Stadt/Dorf-Namenswörterbuch" 409 als Erkennungsgegenstand.
Hier extrahiert und erfasst die Systemseite "Alle Saitama-Präfektur, Kawagoe-City Hospitäler-Wörterbücher" 417 bis 420, um ein "Saitama-Präfektur Kawagoe-City Hospitäler-Wörterbuch" 403 anzulegen, und ersetzt das "Saitama-Präfektur City/Stadt/Dorf-Namenswörterbuch" 409 gegen das "Saitama-Präfektur Kawagoe-City Hospitäler-Wörterbuch" 413. Weiterhin wird (9) eine Führungsmitteilung "Bitte Name" ausgegeben, um zum Sprechen eines konkreten Namens eines bezeichneten Ortes aufzufordern. Wenn als Antwort hierauf der Benutzer (10) als Ortsname "Saito-Hospital" spricht, erkennt das Spracherkennungssystem die Wörter mit dem "Saitama-Präfektur Kawagoe-City Hospitäler-Wörterbuch" 413 als Erkennungsgegenstand.
5 bis 7 sind Flussdiagramme, die zur Erläuterung des Betriebs der Ausführungsformen der Erfindung herangezogen werden.
Unter Bezugnahme auf die in 5 bis 7 gezeigten Flussdiagramme, werden die Abläufe in den in den 1 bis 3A und 3B gezeigten Ausführungsformen nachfolgend im Detail erläutert.
In 5 erfasst die erste Steuereinheit 110 eine Suchstartanforderung für eine Ortssuche, die aufgrund einer Spracheingabe über eine nicht gezeigte Sprechtaste oder dgl. durch den Benutzer ausgeführt wird (Schritt S500). Fall nicht erfasst (Schritt S500 NEIN), befindet sie sich im Wartezustand. Wenn eine Erfassung vorliegt (Schritt S500 JA), werden die zuletzt gespeicherten Einengungsbedingungen in der Erkennungsergebnis-Speichereinrichtung 107 gelöscht, d. h. der Genrename, der Unter-Genrename, Metropolen- oder Distriktsname, City/Stadtteil/Stadt/Dorf-Name und bezeichneter Ortseigenname (Schritt S501). Die das Erkennungswörterbuch wählende Einrichtung 105 wird veranlasst, ein Genrewörterbuch aus den Spracherkennungs wörterbüchern, die in der Erkennungswörterbuch-Speichereinrichtung 104 gespeichert sind, zu extrahieren und die Bezugs-Sprachinformation, die für jeden Genrenamen repräsentativ ist, in den RAM 103 zu laden, um jeden Genrenamen im Genrenamenswörterbuch zu einem Wort/Phrase-Erkennungsgegenstand zu machen (Schritt S502).
Die Steuereinheit 110 veranlasst die Erkennungseinrichtung 102, einen Erkennungsprozess an den eingegeben Wörtern auszuführen, die vom Benutzer gesprochen wurden (Genrename oder "Unbekannt") mit dem in den RAM 103 geladenen Spracherkennungswörterbuch als Gegenstand, und gibt ein Erkennungsergebnis an die Steuereinheit 110 aus (Schritt S503). Im Falle, dass das im Schritt S503 erhaltene Erkennungsergebnis ein/e die Hierarchieebene überspringendes Wort/Phrase ist, wie "Unbekannt" (Schritt S504 JA), wird ein die Einengungsbedingung einstellender Prozess aufgrund des Genrenamens von Schritt S505 übersprungen, um zu einem Prozess des Schritts S506 zu kommen. Wenn andererseits das im Schritt S503 erhaltene Erkennungsergebnis irgendein Genrename ist (Schritt S504 NEIN), dann wird der erkannte Genrename als Einengungsbedingung in der Erkennungsergebnis-Speichereinrichtung 107 gespeichert (Schritt S505).
Anschließend veranlasst die Steuereinheit 110 die Erkennungswörterbuch-Wähleinrichtung 105, ein Unter-Genrenamenswörterbuch, das zu einer niedrigeren Hierarchieebene nächst dem Genrenamenswörterbuch, das augenblicklich als Wort/Phrase-Erkennungsgegenstand im RAM 103 gespeichert ist, aus den Spracherkennungswörterbüchern, die in der Erkennungswörterbuch-Speichereinrichtung gespeichert sind, zu extrahieren, und lädt die Bezugs-Sprachinformation, die für jeden Unter-Genrenamen repräsentativ ist, in den RAM 103, um einen Unter-Genrenamen in dem extrahieren Unter-Genrenamenswörterbuch zu einem/r Erkennungsgegenstandswort/Phrase zu machen (Schritt S506). Nebenbei, bezüglich des hier geladenen Unter-Genrenamens, wenn das Erkennungsergebnis von Schritt S503 ein die Hierarchieebene überspringende/s Wort/Phrase, wie "Unbekannt", ist, weil alle Unter-Genrenamenswörterbücher entsprechend der niedrigeren Hierarchieebene gewählt sind, die zu der Bezugs-Sprachinformation im Genrenamenswörterbuch gehört, das als Erkennungsgegenstandswort/Phrase im RAM 103 im Schritt S502 eingestellt wurde, werden alle Unter-Genrenamen als Erkennungsgegenstand in den RAM 103 geladen. Wenn andererseits das Erkennungsergebnis von Schritt S503 irgendein Genrename ist, wird ein Spracherkennungswörterbuch eines Unter-Genrenamens gewählt, der zu dem erkannten Genrenamen gehört, um als Erkennungsgegenstand den Unter-Genrenamen in das gewählten Unter-Genrenamenswörterbuch in den RAM 103 zu laden.
Die Erkennungseinrichtung 102 wird veranlasst, einen Erkennungsprozess an den eingegebenen Wörtern auszuführen, die vom Benutzer gesprochen wurden (Unter-Genrename oder "Unbekannt") mit dem in den RAM 103 geladenen Spracherkennungswörterbuch als Erkennungsgegenstand, und ein Erkennungsergebnis an die Steuereinheit 110 auszugeben (Schritt S507).
Wenn das im Schritt S507 erhaltene Erkennungsergebnis ein/e die Hierarchieebene überspringendes Wort/Phrase ist, wie "Unbekannt" (Schritt S508 JA), wird ein die einschränkende Bedingung einstellender Prozess aufgrund des Unter-Genrenamens von Schritt S509 übersprungen, um zum Schritt S510 zu gelangen. Wenn andererseits das im Schritt S507 erhaltene Erkennungsergebnis ein Unter-Genrenamen ist (Schritt S508 NEIN), wird der erkannte Unter-Genrename als Einengungsbedingung in die Erkennungsergebnis-Speichereinrichtung 107 eingesetzt (Schritt S509).
Die Erkennungswörterbuch-Wähleinrichtung 105 wird veranlasst, ein Metropole-und-Distrikt-Namenswörterbuch aus den in der Erkennungswörterbuch-Speichereinrichtung 104 gespeicherten Spracherkennungswörterbüchern zu extrahieren, und die Bezugs-Sprachinformation, die für jeden Metropolen- oder Distriktsnamen repräsentativ ist, mit einem Metropolen- oder Distriktsnamen in das extrahierte Metropole-und-Distrikt-Namenswörterbuch als Erkennungsgegenstand zu laden (Schritt S510). Nebenbei, bezüglich des hier geladenen Metropolen- oder Distriktsnamens, wenn das Erkennungsergebnis von Schritt S507 ein/e die Hierarchieebene überspringendes Wort/Phrase, wie "Unbekannt", ist, oder wenn es ein Unter-Genrename ist, wird ein Metropole-und-Distrikt-Namenswörterbuch ausgewählt, um als Erkennungsgegenstand einen Metropolen- oder Distriksnamen im ausgewählten Metropole-und-Distrikt-Namenswörterbuch in den RAM 103 zu laden.
Die Erkennungseinrichtung 102 wird veranlasst, einen Erkennungsprozess an der vom Benutzer gesprochenen Spracheingabe (Metropolen- oder Distriktsname oder "Unbekannt") auszuführen mit dem im RAM 103 geladenen Spracherkennungswörterbuch als Erkennungsgegenstand, und ein Erkennungsergebnis an die Steuereinheit 110 auszugeben (Schritt S511). Wenn das im Schritt S511 erhaltene Erkennungsergebnis ein/e die Hierarchieebene überspringende/s Wort/Phrase, wie "Unbekannt", ist (Schritt S512 JA), wird ein Einengungsbedingungs-Einstellprozess aufgrund eines Metropolen- oder Distriktsnamens von Schritt S513 übersprungen, um zum Schritt S514 zu gelangen. Wenn andererseits das Erkennungsergebnis im Schritt S511 ein Metropolen- oder Distriktsname ist (Schritt S512 NEIN), wird die erkannte Metropole oder der erkannte Distrikt als Einengungsbedingung in die Erkennungsergebnis-Speichereinrichtung 107 eingesetzt (Schritt S513).
Die Erkennungswörterbuch-Wähleinrichtung 105 wird veranlasst, ein City/Stadtteil/Stadt/Dorf-Wörterbuch aus den in der Erkennungswörterbuch-Speichereinrichtung 104 gespeicherten Spracherkennungswörterbüchern zu extrahieren und die Bezugs-Sprachinformation, die für jeden City/Stadtteil/Stadt/Dorf-Namen repräsentativ ist, in den RAM 103 zu laden, um den City/Stadtteil/Stadt/Dorf-Namen zu einem/r Erkennungsgegenstandswort oder -phrase zu machen (Schritt S514).
Nebenbei, betreffend den hier zu ladenden City/Stadtteil/Stadt/Dorf-Namen, wenn das Erkennungsergebnis im Schritt S511 ein/e die Hierarchieebene überspringende/s Wort/Phrase, wie "Unbekannt", ist, werden sämtliche City/Stadtteil/Stadt/Dorf-Namenswörterbücher des gesamten Landes entsprechend der niedrigeren Hierarchieebene, die zu der Bezugs-Sprachinformation in allen Metropole-und-Distrikt-Namenswörterbüchern des gesamten Landes, die in Schritt S510 eingesetzt worden sind, gewählt, um die City/Stadtteil/Stadt/Dorf-Namen als Erkennungsgegenständen in den RAM 103 zu laden. Wenn andererseits das Erkennungsergebnis von Schritt S512 ein Metropolen- oder Distriktsname ist, wird ein Spracherkennungswörterbuch für die City/Stadtteil/Stadt/Dorf extrahiert, die/der/das in der erkannten Metropole oder dem Distrikt existiert, um als Gegenstände des/r Erkennungsworts/Phrase die City/Stadtteil/Stadt/Dorf-Namen des extrahierten City/Stadtteil/Stadt/Dorf-Namenswörterbuch in den RAM 103 zu laden.
Die Erkennungseinrichtung 102 wird veranlasst, einen Erkennungsprozess an der vom Benutzer gesprochenen Spracheingabe (City/Stadtteil/Stadt/Dorf-Namen oder "Unbekannt") auszuführen, mit dem im RAM 103 geladenen Spracherkennungswörterbuch als Erkennungsgegenstand, und ein Erkennungsergebnis an die Steuereinheit 110 auszugeben (Schritt S515).
Wenn das im Schritt S515 erhaltene Erkennungsergebnis ein/e die Hierarchieebene überspringendes Wort/Phrase, wie "Unbekannt", ist (Schritt S516 JA), wird ein eine Einengungsbedingung einstellender Vorgang aufgrund des City/Stadtteil/Stadt/Dorf-Namens von Schritt S517 übersprungen, um zum Schritt S518 zu gelangen. Wenn andererseits das im Schritt S515 erhaltene Erkennungsergebnis ein City/Stadtteil/Stadt/Dorf-Name ist (Schritt S516 NEIN), wird die/der/das erkannte City/Stadtteil/Stadt/Dorf als eine Einengungsbedingung in die Erkennungsergebnis-Speichereinrichtung 107 eingestellt (Schritt S517).
Mit dem in der Erkennungswörterbuch-Speichereinrichtung 104 gespeicherten Spracherkennungswörterbuch wird eine Summe der Anzahl von Teilen der Bezugs-Sprachinformation (Größe) in Ortsnamenswörterbüchern berechnet, die die in der Erkennungsergebnis-Speichereinrichtung 107 gespeicherten Einengungsbedingungen befriedigen, was in den Schritt S505, S513 und S517 erfolgte (Schritt S518). Wenn die Summe der Größen der Ortsnamenswörter bücher eine Bezugszahl überschreitet, die entsprechend der Kapazität des RAM 103 vorgegeben ist (Schritt S519 NEIN), wird ein Erkennungsvorgang mehrmals für alle Ortsnamenswörterbücher als Erkennungsgegenstände ausgeführt (Schritt S520). Wenn die Summe der Größen der Ortsnamenswörterbücher kleiner als die Kapazität des RAM 103 ist (Schritt S519 JA), wird die Bezugs-Sprachinformation, die für jeden Ortsnamen repräsentativ ist, in den RAM 103 geladen, um als Erkennungsgegenstandswörter/Phrasen die Ortsnamen in allen Ortsnamenswörterbüchern, die die gespeicherte Einengungsbedingung befriedigen (Schritt S521), zu machen, um einen normalen Erkennungsvorgang auszuführen (Schritt S522). Dann wird ein Ortsname als Erkennungsergebnis, das im Schritt S520 oder Schritt S522 erhalten wurde, ausgegeben (Schritt S523).
Nebenbei, im obigen Flussdiagramm, wenn als Einengungsbedingung eine Genrenamenseingabe übersprungen wird, d. h. wenn das Erkennungsergebnis im Schritt S503 ein/e die Hierarchieebene überspringende/s Wort/Phrase, wie "Unbekannt" ist (Schritt S504 JA), wird nur der die Einengungsbedingung einstellende Prozess aufgrund des Genrenamens von Schritt S505 übersprungen, um zum Schritt S506 zu gelangen. Ohne Einschränkung auf das vorangehende Beispiel, wenn jedoch ein Genrename unbekannt ist, besteht eine hohe Wahrscheinlichkeit, dass ein Unter-Genrename ebenfalls unbekannt ist. Dementsprechend kann auch die Eingabe eines Unter-Gubgenrenamens übersprungen werden, um zum Vorgang des Schritt S510 zu gelangen.
Unter Verwendung eines Flussdiagramms von 6 wird jetzt ein detaillierter Ablauf eines jeden Erkennungsvorgangs der Erkennungseinrichtung 102 für im Schritt S503, S507, S511, S515, S522 vom Benutzer eingegebener Sprache in 5 erläutert.
In 6 wird ermittelt, ob die Spracheingabe am Mikrofon 100 beginnt, oder nicht (Schritt S600). Als Spracheingabe-Erfassungsverfahren ist es möglich, ein Verfahren in Betracht zu ziehen, bei dem beispielsweise zuvor ein Schwellenwert eines Schalldruckpegels und eine Bezugszeit in der Merkmalsmengen-Berechnungseinrichtung 101 gespeichert werden, um einen Eingabesignal-Schalldruckpegel am Mikrofon 100 mit dem Schwellenwert zu vergleichen, so dass, wenn der Zustand des Eingangssignals den vorbestimmten Schwellenwert während der Bezugszeit oder länger fortlaufend überschreitet, die Schalleingabe als begonnen angesehen wird.
Wenn ein Sprechbeginn ermittelt wird, wird die eingegebene Sprache in eine Merkmalsmenge umgewandelt, die für die Spracherkennung in der Merkmalsmengen-Berechnungseinrichtung 101 geeignet ist (Schritt S601) und die in der Merkmalsmengen-Speichereinrichtung 106 ge speichert und von der Merkmalsmengen-Berechnungseinrichtung 101 an die Erkennungseinrichtung 102 ausgegeben wird. Die Erkennungseinrichtung 102 berechnet einen Ähnlichkeitsgrad zwischen der zugeführten Merkmalsmenge und jedem Teil der Bezugs-Sprachinformation, die in den RAM 103 geladen ist (Schritt S602). Dann wird ermittelt, ob die Schalleingabe geendet hat, oder nicht (Schritt S603). Nebenbei, als Sprechende-Erfassungsverfahren ist es möglich, ein Verfahren in Betracht zu ziehen, bei dem beispielsweise ein Schalldruckschwellenwert und eine Bezugszeit zuvor in die Merkmalsmengen-Berechnungseinrichtung 101 eingespeichert werden, um einen Eingabesignal-Schalldruckpegel am Mikrofon 100 mit dem Schwellenwert zu vergleichen, so dass, wenn der Zustand des Eingabesignals den vorbestimmten Schwellenwert über die Bezugszeit oder länger unterschreitet, die Schalleingabe als beendet angesehen wird.
Wenn ermittelt wird, dass die Spracheingabe nicht beendet ist (Schritt S603 NEIN), kehrt der Vorgang zum Schritt S601 zurück. Wenn andererseits ermittelt wird, dass die Spracheingabe geendet hat (Schritt S603 JA), wird die Bezugs-Sprachinformation, die im Schritt S602 als höher im Ähnlichkeitsgrad ermittelt wurde, mit ihrem Ähnlichkeitsgrad in Korrespondenz gebracht, um ein Erkennungsergebnis zu erzielen, das an die Steuereinheit 110 und an die Erkennungsergebnis-Speichereinrichtung 107 ausgegeben und in der Erkennungsergebnisspeichereinrichtung 107 gespeichert wird (Schritt S604).
Es wird nun ein Vielfach-Erkennungsprozess, der im Schritt S520 im Falle auszuführen ist, dass die Summe der Größe der im Schritt S518 ermittelten Ortsnamenswörferbücher nicht in der Kapazität des RAM 103 untergebracht werden kann (Schritt S519 NEIN), erläutert, wie im Flussdiagramm von 5 beschrieben war, wobei ein Flussdiagramm von 7 verwendet wird. Die Vielfachanzahl des Erkennungsprozesses dient der Wiederholung des Erkennungsprozesses beim Wechseln der Wörterbücher (der Anzahl N) als Erkennungsgegenstände für eine Spracheingabe, die Erkennungsergebnisse der jeweiligen Wörterbücher zu integrieren und schließlich ein Erkennungsergebnis insgesamt zu bestimmen.
In 7 wird die Anzahl der Orfsnamenswörterbücher (N) gezählt, die die Einengungsbedingung befriedigen, die in der Erkennungsergebnis-Speichereinrichtung 107 in den Schritten S505, S509, S513, S517 gespeichert werden, wobei das Wörterbuch in der Erkennungswörterbuch-Speichereinrichtung 104 gespeichert wird (Schritt S700). Anschließend erhält die Wörterbuchzahl n = 1 (Schritt S701). Hier wird ein Ortsnamenswörterbuch, das in der Managementanzahl unter den Ortsnamenswörterbüchern, die die Einengungsbedingung befriedigen, zu einem Ortsnamenswörterbuch der Wörterbuch Nr. 1 gemacht, die Erkennungswörterbuch-Wähleinrichtung 105 wird veranlasst, ein Ortsnamenswörterbuch der Wörterbuchzahl n (= 1) aus der Erkennungswörterbuch-Speichereinrichtung 104 zu extrahieren, und die Bezugs-Sprachinfor mation, die für jeden Ortsnamen repräsentativ ist, wird in den RAM 103 geladen, um einen Ortsnamen des extrahierten Ortsnamenswörterbuchs zu einem/r Erkennungsgegenstandswort/Phrase zu machen (Schritt S702). Hier bezeichnet die Managementzahl eine in der Reihenfolge jedem Spracherkennungswörterbuch, das in der Erkennungswörterbuch-Speichereinrichtung 104 gespeichert ist, zugewiesene Zahl.
Als nächstes wird ermittelt, ob die Spracheingabe am Mikrofon 100 begonnen hat, oder nicht (Schritt S703). Als ein Spracheingabeerfassungsverfahren ist es möglich, ein Verfahren in Betracht zu ziehen, bei dem beispielsweise ein Schalldruckschwellenwert und eine Bezugszeit zuvor in die Merkmalsmengen-Berechnungseinrichtung 101 eingespeichert werden, um einen Eingabesignal-Schalldruckpegel am Mikrofon 100 mit dem Schwellenwert zu vergleichen, so dass, wenn der Zustand des Eingangssignals den vorbestimmten Schwellenwert fortlaufend für die Bezugszeit oder länger überschreitet, die Schalleingabe als begonnen angesehen wird.
Wenn ein Sprechbeginn ermittelt wird, wird eine Spracheingabe in eine Merkmalsmenge umgewandelt, die für die Spracherkennung in der Merkmalsmengen-Berechnungseinrichtung 101 geeignet ist (Schritt S704) und in der Merkmalsmengen-Speichereinrichtung 106 gespeichert (Schritt S705) und von der Merkmalsmengen-Speichereinrichtung 106 an die Erkennungseinrichtung 102 geliefert. In der Erkennungseinrichtung 102 wird ein Ähnlichkeitsgrad zwischen der zugeführten Merkmalsmenge und allen Teilen einer Bezugs-Sprachinformation berechnet, die in den RAN 103 geladen ist (Schritt S706). Sodann wird ermittelt, ob die Schalleingabe geendet hat, oder nicht (Schritt S707).
Nebenbei, als Sprechende-Erfassungsverfahren ist es möglich, ein Verfahren in Betracht zu ziehen, bei dem beispielsweise ein Schalldruckpegelschwellenwert und eine Bezugszeit zuvor in die Merkmalsmengen-Berechnungseinrichtung 101 eingespeichert werden, um einen Eingabesignal-Schalldruckpegel am Mikrofon 100 mit dem Schwellenwert zu vergleichen, so dass, wenn der Zustand des Eingangssignals über die Bezugszeit fortlaufend gleich oder kleiner als der vorbestimmte Schwellenwert ist, die Schalleingabe als beendet angesehen wird.
Im Falle, dass ermittelt wird, dass der Sprechvorgang nicht geendet hat (Schritt S707 NEIN), wird der Ablauf zum Schritt S704 zurückgeführt. Wenn andererseits ermittelt wird, dass die Spracheingabe geendet hat (Schritt S707 JA), wird die Bezugs-Sprachinformation von K in der Anzahl der Teile in der Reihenfolge des höheren Ähnlichkeitsgrads, wie im Schritt S706 ermittelt, mit ihrem Ähnlichkeitsgrad in Korrespondenz gebracht und als ein Erkennungsergebnis des Ortsnamenswörterbuchs der Wörterbuchzahl n = 1 an die Erkennungsergebnis-Speichereinrichtung 107 ausgegeben und in der Erkennungsergebnis-Speichereinrichtung 107 gespeichert (Schritt S708). Nebenbei, K ist eine ganze Zahl gleich oder größer als 1, was ein Wert ist, der in geeigneter Weise von einem Systemdesigner vorzugeben ist.
Anschließend wird der Wörterbuchzahl n = 2 gegeben (Schritt S709). Es wird ermittelt, ob die Wörterbuchzahl n größer als die Zahl der Erkennungsgegenstandswörterbücher (N) ist, die im Schritt S700 gezählt wurde, oder nicht (Schritt S710). Wenn die Wörterbuchzahl n gleich oder kleiner als die Zahl Erkennungsgegenstandswörterbücher (N) ist (Schritt S710 NEIN), wird zum Schritt S711 vorgerückt. Ein Ortsnamenswörterbuch um n niedriger in der Managementzahl unter den Ortsnamenswörterbücher, die die Einengungsbedingung befriedigen, wird zu einem Ortsnamenswörterbuch der Wörterbuchzahl = n, die Erkennungswörterbuch-Wähleinrichtung 105 wird veranlasst, ein Ortsnamenswörterbuch der Wörterbuchzahl (n) aus der Erkennungswörterbuch-Speichereinrichtung 104 zu extrahieren, und die Bezugs-Sprachinformation, die für jeden Ortsnamen repräsentativ ist, wird in den RAM 103 geladen, um einen Ortsnamen des extrahierten Ortsnamenswörterbuches zu einem/r Erkennungsgegenstandwort/Phrase zu machen (Schritt S711).
Weil die Merkmalsmenge der eingegebenen Sprache bereits in der Merkmalsmengen-Speichereinrichtung 106 gespeichert ist, wird sie von dort zur Erkennungseinrichtung 102 zugeführt, so dass in der Erkennungseinrichtung 102 ein Ähnlichkeitsgrad zwischen der zugeführten Merkmalsmenge und allen Teilen der Bezugs-Sprachinformation berechnet wird, die in den RAM 103 geladen ist (Schritt S712). Die Bezugs-Sprachinformation der Anzahl K Teile in der Reihenfolge höheren Ähnlichkeitsgrad, bestimmt im Schritt S712, wird mit ihrem Ähnlichkeitsgrad in Korrespondenz gebracht und als Erkennungsergebnis des Ortsnamenswörterbuchs der Wörterbuchzahl n an die Erkennungsergebnisspeichereinrichtung 107 ausgegeben und in der Erkennungsergebnis-Speichereinrichtung 107 gespeichert (Schritt S713). Die Wörterbuchzahl n wird dann auf N + 1 erhöht (Schritt S714). Von nun an wird der Vorgang des Schritts S711 bis zum Schritt S714 wiederholt, bis im Schritt S710 ermittelt wird, dass die Wörterbuchzahl n die Zahl der Erkennungsgegenstandswörterbücher (N) übersteigt.
Wenn andererseits die Wörterbuchzahl n größer als die Zahl Erkennungsgegenstandswörterbücher (N) ist (Schritt S710 JA), wird zum Schritt S715 fortgeschritten. Im Schritt S715 wird als ein zweites Erkennungsergebnis der Anzahl K in der Reihenfolge höheren Ähnlichkeitsgrades unter den Erkennungsergebnissen der Anzahl K × N gewählt, die von der Erkennungsergebnis-Integriereinrichtung 108 in der Erkennungsergebnis-Speichereinrichtung 107 gespeichert und an die Steuereinheit 110 ausgegeben werden und aktualisiert und in der Erkennungsergebnis-Speichereinrichtung 107 gespeichert werden. Nebenbei, im Fall, dass K gleich 1, wird das Erkennungsergebnis im Schritt S715 mit eins bezeichnet. Im Falle, das K gleich 2 oder größer ist, werden wegen der Wahl von eins unter den zweiten Erkennungsergebnissen der Anzahl K die zweiten Erkennungsergebnisse der Zahl K an die Steuereinheit 110 ausgegeben, um Ortsnamen der Zahl K an der Ergebnisanzeigeeinrichtung 112 anzuzeigen, wodurch die Auswahl mit einem nicht gezeigten Betätigungsknopf ermöglicht wird. Andererseits wird jenes mit dem höchsten Ähnlichkeitsgrad als Erkennungsergebnis dem Benutzer durch Verwendung des Lautsprechers 111 und der Ergebnisanzeigeeinrichtung 112 dargeboten. Es ist zufriedenstellend, wenn jenes mit dem nächst höheren Ähnlichkeitsgrad gleichfalls entsprechend einem Wort NEIN oder dgl. durch den Benutzer dargestellt wird, wobei eine sequentielle Darbietung ausgeführt wird, bis vom Benutzer ein Vorgang ausgelöst oder ein JA gesprochen wird, so dass eines aus den Erkennungsergebnissen ermittelt wird.
Nebenbei, bezüglich des/der die Hierarchieebene überspringenden Worts/Phrase ist das Wort "Unbekannt" ein Beispiel, kann jedoch ein Wort sein, das ausdrückt, dass der Benutzer die vom System angeforderte Information nicht besitzt, es können beispielsweise mehrere Wörter sein, wie "Überspringe", "Nächstes", oder dgl.. Indessen ist die Einengungsbedingung nicht auf "Genrename", "Unter-Genrename", "Metropole-und-Distrikt-Name", "City/Stadtteil/Stadt/Dorf-Name" begrenzt, sondern kann "Platzname", "Postleitzahl" oder dgl. sein.
Wie oben erläutert, wird gemäß der vorliegenden Erfindung dann, wenn eine Eingabe einer Bedingung, die der Benutzer nicht kennt, vom System beim Einengen auf einen bezeichneten Ort angefordert wird, die Bezugs-Sprachinformation, die für das Überspringen der Hierarchieebene kennzeichnend ist (gesprochen: "Unbekannt"), eingegeben, wodurch es möglich gemacht wird, die Suche fortzuführen und die Betriebsfähigkeit und das Ansprechverhalten zu verbessern.
Nebenbei, weil in diesem Falle die Einengungsbedingungen auf weniger als die Zahl vermindert werden, die zuvor vom System eingestellt wurde, ist es möglich, die Zahl der Erkennungsgegenstandswörter/Phrasen beim letztendlichen Sprechen eines Namens zu erhöhen, was zu einer geringeren Erkennungsrate führt. Jedoch ist die Fortsetzung der Suche möglich gemacht, so dass hinsichtlich der Betriebsfähigkeit und des Ansprechverhaltens große Wirkungen hervorgebracht werden. Auch kann trotz der durch die Zunahme der Erkennungsgegenstandswörter/Phrasen problematisch gewordenen Speicherkapazität durch Unterteilung des Erkennungsvorgangs in eine Vielzahl Abhilfe geschaffen werden.

Claims

Spracherkennungsvorrichtung, die umfasst: einen hierarchischen Wörterbuchabschnitt (104), in dem eine Vielzahl von Spracherkennungswörterbüchern, die eine Vielzahl von Bezugs-Sprachsignalen mit gegenseitiger Verknüpfung aufweisen, in hierarchischer Weise gespeichert sind; eine Extrahiereinrichtung (110), die ein ausgewähltes Spracherkennungswörterbuch aus dem hierarchischen Wörterbuchabschnitt extrahiert; eine Listenspeichereinrichtung, die das extrahierte Spracherkennungswörterbuch (103) speichert; eine Spracheingabeeinrichtung (100) zum Eingeben von Sprache; eine Erkennungseinrichtung (102), die Eingabe-Sprache mit Bezugs-Sprachinformationen in dem Spracherkennungswörterbuch vergleicht, das in der Listen-Speichereinrichtung gespeichert ist, um die Sprache zu erkennen; wobei die Extrahiereinrichtung ein Spracherkennungswörterbuch, das zu einer niedrigeren Hierarchieebene des Spracherkennungswörterbuchs gehört, auf Basis der Bezugs-Sprachinformationen und der erkannten Sprache entsprechend extrahiert, und die Listenspeichereinrichtung das extrahierte Spracherkennungswörterbuch in einem Speicher speichert, wobei die Spracherkennungsvorrichtung so eingerichtet ist, dass: Bezugs-Sprachinformationen, die repräsentativ für Hierarchieebenen-Überspringen ist, in einem vorgegebenen Hierarchieebenenbestimmungs-Spracherkennungswörterbuch erzeugt werden, so dass, wenn die Erkennungseinrichtung eine Spracheingabe erkennt, die den Bezugs-Spracheninformationen entspricht, die repräsentativ für Hierarchieebenen-Überspringen sind, die Extrahiereinrichtung angewiesen wird, ein Spracherkennungswörterbuch, das zu einer niedrigeren Hierarchieebene als der der Bezugs-Sprachinformationen gehört, die momentan in der Listenspeichereinrichtung gespeichert ist, zu extrahieren und in der Listenspeichereinrichtung zu speichern.
Spracherkennungsvorrichtung nach Anspruch 1, die des Weiteren als das Spracherkennungswörterbuch ein typenbasiertes Wörterbuch, das Typen von Einrichtungen speichert, und ein Standort-Wörterbuch umfasst, das die Namen von Einrichtungen speichert, die zu den Typen der Einrichtungen gehören.
Spracherkennungsvorrichtung nach Anspruch 1, die des Weiteren als ein Spracherkennungswörterbuch ein Regions-Wörterbuch, das Namen von Regionen speichert, und ein Standort-Wörterbuch umfasst, das die Einrichtungsnamen von Einrichtungen speichert, die in einer der Regionen vorhanden sind.
Spracherkennungsvorrichtung nach Anspruch 1, die des Weiteren als ein Spracherkennungswörterbuch ein Regions-Wörterbuch, das Namen von Regionen speichert, ein typbasiertes Wörterbuch, das Typnamen der Einrichtungen speichert, und ein Standort-Wörterbuch umfasst, das Einrichtungsnamen von Einrichtungen speichert, die in einer der Regionen vorhanden sind und zu einem der Typen gehören; wobei, nachdem die Bezugs-Sprachinformationen, die repräsentativ für Hierarchieebenen-Überspringen sind, auf der typbasierten Namensauswahl-Ebene erkannt worden sind, die Extrahiereinrichtung (110) das Regions-Wörterbuch extrahiert.
Spracherkennungsvorrichtung nach Anspruch 1, die des Weiteren umfasst: eine Anzahl-Bestimmungseinrichtung, die die Anzahl von Elementen von Bezugs-Sprachinformationen in dem Spracherkennungswörterbuch bestimmt, das zu einer niedrigeren Hierarchieebene der Bezugs-Sprachinformationen gehört, die durch die Erkennungseinrichtung (102) erkannt worden sind; eine Eingabesprache-Speichereinrichtung, die eine Eingabe-Sprache speichert, und eine Einrichtung zum Speichern ähnlicher Wörter, die ähnliche Bezugs-Sprachinformationen erkennt, indem sie sequenziell mittels der Erkennungseinrichtung zwischen einer in der Eingabesprache-Speichereinrichtung gespeicherten Sprache und Bezugs-Sprachinformationen vergleicht, die in der Listen-Speichereinrichtung (103) gespeichert sind, um die ähnlichen Bezugs-Sprachinformation zu speichern; und eine Bestimmungseinrichtung, die in der Anzahl-Bestimmungseinrichtung vorhanden ist, um zu bestimmen, ob die Anzahl von Wörtern/Phrasen der Bezugs-Sprachinformationen in dem Spracherkennungswörterbuch, das zu der niedrigeren Hierarchieebene der Bezugs-Sprachinformationen gehört, die einer erkannten Sprache entsprechen, einen Bezugswert übersteigt oder nicht; wobei, wenn als die vorgegebene Anzahl oder größer bestimmt, die Extrahiereinrichtung (110) ein Spracherkennungswörterbuch als ein Teil des Spracherkennungswörterbuchs, das zu der niedrigeren Hierarchieebene gehört, extrahiert und in der Listenspeichereinrichtung speichert; wobei, nachdem die Erkennungseinrichtung Vergleich mit den in der Listenspeichereinrichtung gespeicherten Bezugs-Sprachinformationen abschließt, die Extrahiereinrichtung ein nicht extrahiertes Wörterbuch unter den Spracherkennungswörterbüchern extrahiert, die zu der niedrigeren Hierarchieebene gehören, um es zu aktualisieren und durch die Listenspeichereinrichtung zu speichern; wobei die Erkennungseinrichtung sequenziell zwischen Bezugs-Sprachinformationen, die zu einem aktualisierten und in der Listenspeichereinrichtung gespeicherten Wörterbuch gehören, und der Sprache vergleicht, die in der Eingabesprache-Speichereinrichtung gespeichert ist, um ähnliche Bezugs-Sprachinformationen zu erkennen; und wobei die Einrichtung zum Speichern ähnlicher Wörter zusätzlich die neu erkannten ähnlichen Bezugs-Spracheninformationen speichert.
Spracherkennungsvorrichtung nach Anspruch 5, wobei die Erkennungseinrichtung eines von allen ähnlichen Wörtern, die in der Einrichtung zum Speichern ähnlicher Wörter gespeichert sind, erkennt und als ein Erkennungsergebnis darstellt.
Spracherkennungsvorrichtung nach Anspruch 5, wobei eine Vielzahl von Elementen ähnlicher Bezugs-Sprachinformationen unter den Bezugs-Sprachinformationen, die in der Listenspeichereinrichtung gespeichert sind, in der Einrichtung zum Speichern ähnlicher Wörter gespeichert werden, die eine Auswähleinrichtung umfasst, die des Weiteren ein Erkennungsergebnis aus allen Elementen ähnlicher Bezugs-Sprachinformationen auswählt, die in der Einrichtung zum Speichern ähnlicher Wörter gespeichert sind.
Spracherkennungsvorrichtung nach Anspruch 1, die des Weiteren umfasst: eine Eingabesprache-Speichereinrichtung, die die Eingabe-Sprache speichert, wobei: die Erkennungseinrichtung (102) sequenziell zwischen einer Sprache, die in der Eingabesprache-Speichereinrichtung gespeichert ist, und den Bezugs-Sprachinformationen vergleicht, die in der Listenspeichereinrichtung gespeichert sind, um ähnliche Bezugs-Spracheninformationen zu erkennen; und eine Einrichtung zum Speichern ähnlicher Wörter, die die ähnlichen Elemente der Bezugs-Sprachinformationen speichert; wobei, nachdem die Erkennungseinrichtung einen Vergleich zwischen allen Elementen der Bezugs-Sprachinformationen, die zu den Wörterbüchern gehören, die in der Listenspeichereinrichtung gespeichert sind, und einer Sprache, die in der Eingabesprach-Speichereinrichtung gespeichert ist, abgeschlossen hat, die Extrahiereinrichtung aus dem Spracherkennungswörterbuch ein nicht extrahiertes Wörterbuch extrahiert, um es durch die Listenspeichereinrichtung zu speichern; wobei die Erkennungseinrichtung zwischen Bezugs-Sprachinformationen, die zu dem neu gespeicherten Wörterbuch in der Listenspeichereinrichtung gehören, und der Sprache vergleicht, die in der Eingabesprache-Speichereinrichtung gespeichert ist, um ähnliche Bezugs-Sprachinformationen zu erkennen; und wobei die Einrichtung zum Speichern ähnlicher Wörter zusätzlich die neu erkannten ähnlichen Bezugs-Sprachinformationen speichert.
Spracherkennungsvorrichtung nach Anspruch 8, die des Weiteren eine Auswähleinrichtung umfasst, die des Weiteren ein Erkennungsergebnis aus einer Vielzahl von Elementen von Bezugs-Sprachinformationen auswählt, die in der Einrichtung zum Speichern ähnlicher Wörter gespeichert sind.
Spracherkennungsverfahren, bei dem Bezugs-Sprachinformationen aus einer Vielzahl von Spracherkennungswörterbüchern in einer hierarchischen Struktur extrahiert werden, um extrahierte Bezugs-Sprachinformationen mit einer Eingabe-Sprache zu vergleichen und so die Sprache zu erkennen, wobei das Verfahren die folgenden Schritte umfasst: Erzeugen von Bezugs-Sprachinformationen, die repräsentativ für Hierarchieebenen-Überspringen sind, in einem vorgegebenen Spracherkennungswörterbuch, so dass, wenn eine Eingabe einer Sprache erkannt wird, die den Bezugs-Sprachinformationen entspricht, die repräsentativ für Hierarchieebenen-Überspringen sind, ein Spracherkennungswörterbuch einer niedrigeren Hierarchieebene bestimmt werden kann; und Extrahieren eines Teil des Spracherkennungswörterbuchs, das zu einer niedrigeren Hierarchieebene von Bezugs-Sprachinformationen gehört, die verglichen werden, um Spracherkennung durchzuführen.
Spracherkennungsverfahren nach Anspruch 10, wobei Bestimmung der Anzahl von Elementen von Bezugs-Sprachinformationen in einem Spracherkennungswörterbuch vorgenommen wird, das zu einer niedrigeren Hierarchieebene erkannter Bezugs-Sprachinformationen gehört, so dass, wenn bestimmt wird, dass die Anzahl einen Bezugswert übersteigt, ein Teil des Spracherkennungswörterbuchs, das zu der niedrigeren Hierarchieebene gehört, extrahiert und verglichen wird, um ähnliche Bezugs-Sprachinformationen zu erkennen, und nach dem Vergleich mit den extrahierten Bezugs-Sprachinformationen abgeschlossen ist, ein nicht extrahiertes Spracherkennungswörterbuch aus den Spracherkennungswörterbüchern extrahiert wird, die zu der niedrigeren Hierarchieebene gehören, und verglichen wird, um so ähnliche Bezugs-Sprachinformationen zu erkennen; und Bezugs-Sprachinformationen, die einer Eingabesprache entsprechen, des Weiteren aus einer Vielzahl ähnlicher Elemente der Bezugs-Sprachinformationen ausgewählt werden.
Spracherkennungsverfahren nach Anspruch 10, das des Weiteren die folgenden Schritte umfasst: Extrahieren eines Spracherkennungswörterbuchs aus einer Vielzahl von Spracherkennungswörterbüchern mit einer Vielzahl von Elementen von Bezugs-Sprachinformationen; Vergleichen der Bezugs-Sprachinformationen in einem extrahierten Spracherkennungswörterbuch mit Eingabesprache; Extrahieren eines weiteren Spracherkennungswörterbuchs, das sich von dem einen Spracherkennungswörterbuch unterscheidet, nachdem Vergleich mit den aktuellen Bezugs-Sprachinformationen in dem zuvor extrahierten Spracherkennungswörterbuch abgeschlossen ist; und Ersetzen der Bezugs-Sprachinformationen in dem extrahierten Spracherkennungswörterbuch als zu vergleichende Bezugs-Sprachinformationen, und Anstellen von Vergleich zwischen ersetzenden Bezugs-Sprachinformationen und der Eingabesprache, um so die eingegebene Sprache zu erkennen.