DE112010006037B4

DE112010006037B4 - Spracherkennungsvorrichtung und Navigationssystem

Info

Publication number: DE112010006037B4
Application number: DE112010006037.1T
Authority: DE
Inventors: Jun Ishii; Yuzo Maruta
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-11-30
Filing date: 2010-11-30
Publication date: 2019-03-07
Anticipated expiration: 2030-12-01
Also published as: CN103229232A; DE112010006037T5; WO2012073275A1; US20130158999A1; JPWO2012073275A1; JP5409931B2; CN103229232B

Abstract

Spracherkennungsvorrichtung, umfassend:
eine Akustik-Analysatoreinheit (23) zum Ausführen einer Akustik-Analyse des eingegebenen Sprachsignals zum Umwandeln des eingegebenen Sprachsignals in eine Zeitreihe akustischer Merkmale;
eine Vokabularspeichereinheit (27) zum Aufzeichnen von Wörtern, die ein Spracherkennungsziel sind;
eine Wörterbuchspeichereinheit (25A) zum Speichern eines ausschließlich Zahlen enthaltenden Spracherkennungswörterbuchs;
eine Akustikdatenabgleicheinheit (24A) zum Vergleichen der Zeitreihe akustischer Merkmale der eingegebenen Sprache mit dem Spracherkennungswörterbuch, und zum Auswählen einer wahrscheinlichsten Zahl als der eingegebenen Sprache aus dem Spracherkennungswörterbuch; und
eine Abgleicheinheit (26A) zum Ausführen einer Abgleichung zwischen der ausgewählten Zahl und den in der Vokabularspeichereinheit (27) gespeicherten Wörtern, und zum Auswählen, als ein Spracherkennungsergebnis, eines die ausgewählte Zahl enthaltenden Wortes, aus den in der Vokabularspeichereinheit (27) gespeicherten Wörtern.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung, die auf einem Bord-Navigationssystem und dergleichen angewendet wird, und auf ein Navigationssystem mit der Spracherkennungsvorrichtung.
HINTERGRUND
Beispielsweise offenbart JP 7-219578 A ein Spracherkennungsverfahren, das auf einer großmaßstäblichen Grammatik basiert. Das Spracherkennungsverfahren wandelt eingegebene Sprache in eine Sequenz akustischer Merkmale um, vergleicht die Sequenz mit einem Satz von akustischen Merkmalen von Wortketten, die durch die vorgegebene Grammatik spezifiziert sind, und erkennt, dass diejenige, die am besten zu einem durch die Grammatik definierten Satz passt, die geäußerte, eingegebene Sprache ist.
DE 693 30 427 T2 beschreibt ein Spracherkennungssystem für Sprachen mit zusammengesetzten Wörtern. Dieses Spracherkennungssystem verwendet System-Wörterbücher mit akustischen Wortmodelle oder alphabetischen Wortlisten. Große Wortlisten werden auch bei den Spracherkennungssystemen gemäß US 2009/0210230 A1 , US 2006/0100871 A1 , EP 2 221 806 A1 und EP 1 734 509 A1 verwendet.
OFFENBARUNG DER ERFINDUNG
DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
In Japan und China gibt es, da Kanji und dergleichen verwendet werden, verschiedene Zeichen. Zusätzlich einen Fall der Ausführung von Spracherkennung einer Adresse erwägend, da Adressen manchmal Wohnanlagennamen enthalten, die einem Gebäude zu eigen sind, falls ein Erkennungswörterbuch volle Adressen enthält, wird die Kapazität des Erkennungswörterbuchs groß, was zu einem Problem führt, mit einer Verschlechterung bei der Erkennungsleistung und einer Verlängerung der Erkennungszeit einherzugehen.
Zusätzlich müssen bezüglich der durch JP 7-219578 A typifizierten konventionellen Techniken, wenn Zeichen, die verwendet werden, divers sind, und Eigennamen wie etwa Wohnanlagennamen in einem Erkennungsziel enthalten sind, ihre Grammatikspeicher und Wortwörterbuchspeicher eine sehr große Kapazität haben, wodurch die Anzahl von Zugriffen auf die Speicher vergrößert wird und die Erkennungszeit verlängert wird.
Die vorliegende Erfindung ist gemacht worden, um die vorstehenden Probleme zu lösen. Daher ist es eine Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung bereitzustellen, die in der Lage ist, die Kapazität des Spracherkennungswörterbuches zu reduzieren und die Erkennungsverarbeitung in Verbindung damit zu beschleunigen, und ein die Spracherkennungsvorrichtung inkorporiertes Navigationssystem bereitzustellen.
MITTEL ZUM LÖSEN DES PROBLEMS
Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung umfasst die im Patentanspruch 1, im Patentanspruch 3 oder im Patentanspruch 4 angegebenen Merkmale. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen..
VORTEILE DER ERFINDUNG
Die vorliegende Erfindung bietet den Vorteil, in der Lage zu sein, die Kapazität des Spracherkennungswörterbuches zu reduzieren und die Erkennungsverarbeitung in Verbindung damit zu beschleunigen.
Figurenliste

1 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung einer Ausführungsform 1 gemäß der vorliegenden Erfindung zeigt;
2 ist ein Blockdiagramm, das einen Ablauf der Erzeugungsverarbeitung des Spracherkennungswörterbuches in der Ausführungsform 1 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt;
3 ist ein Diagramm, das ein Beispiel des in der Spracherkennungsvorrichtung der Ausführungsform 1 verwendeten Spracherkennungswörterbuchs zeigt;
4 ist ein Flussdiagramm, das einen Ablauf der Spracherkennungsverarbeitung der Ausführungsform 1 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt;
5 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung einer Ausführungsform 2 gemäß der vorliegenden Erfindung zeigt;
6 ist ein Flussdiagramm, das einen Ablauf der Erzeugungsverarbeitung eines Spracherkennungswörterbuches der Ausführungsform 2 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt;
7 ist ein Diagramm, das ein Beispiel des in der Spracherkennungsvorrichtung der Ausführungsform 2 verwendeten Spracherkennungswörterbuches zeigt;
8 ist ein Flussdiagramm, das einen Ablauf der Spracherkennungsverarbeitung der Ausführungsform 2 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt;
9 ist ein Diagramm, das ein Beispiel einer Pfadsuche am Spracherkennungswörterbuch in der Spracherkennungsvorrichtung der Ausführungsform 2 illustriert;
10 ist ein Flussdiagramm, das ein anderes Beispiel der Spracherkennungsverarbeitung der Ausführungsform 2 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt;
11 ist ein Diagramm, das ein anderes Beispiel der Pfadsuche am Spracherkennungswörterbuch in der Spracherkennungsvorrichtung der Ausführungsform 2 zeigt;
12 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung einer Ausführungsform 3 gemäß der vorliegenden Erfindung zeigt;
13 ist ein Diagramm, das ein Beispiel eines Spracherkennungswörterbuches in der Ausführungsform 3 zeigt;
14 ist ein Flussdiagramm, das einen Ablauf der Spracherkennungsverarbeitung der Ausführungsform 3 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt;
15 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung in Ausführungsform 4 gemäß der vorliegenden Erfindung zeigt;
16 ist ein Diagramm, das ein Beispiel einer in der Spracherkennungsvorrichtung der Ausführungsform 4 verwendeten Merkmalsmatrix illustriert;
17 ist ein Diagramm, das ein anderes Beispiel der in der Spracherkennungsvorrichtung der Ausführungsform 4 verwendeten Merkmalsmatrix illustriert;
18 ist ein Flussdiagramm, das einen Ablauf der Spracherkennungsverarbeitung der Ausführungsform 4 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt;
19 ist ein Diagramm, das einen Suchpfad am Spracherkennungswörterbuch in der Spracherkennungsvorrichtung der Ausführungsform 4 illustriert;
20 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung einer Ausführungsform 5 gemäß der vorliegenden Erfindung zeigt;
21 ist ein Diagramm, das ein Beispiel eines Spracherkennungswörterbuches zeigt, das auf Silben aufgebaut ist, die in der Spracherkennungsvorrichtung der Ausführungsform 5 verwendet werden;
22 ist ein Flussdiagramm, das einen Ablauf im Erzeugungsprozess von Silben-getrennten Adressdaten der Ausführungsform 5 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt; und
23 ist ein Flussdiagramm, das einen Ablauf der Spracherkennungsverarbeitung der Ausführungsform 5 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt.

BESTER MODUS ZUM AUSFÜHREN DER ERFINDUNG
Der beste Modus zum Ausführen der Erfindung wird nunmehr unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, um die vorliegende Erfindung detaillierter zu erläutern.
AUSFÜHRUNGSFORM 1
1 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung einer nicht erfindungsgemäßen Ausführungsform 1 zeigt, die eine Vorrichtung zum Ausführen von Spracherkennung einer durch einen Anwender geäußerten Adresse zeigt. In 1 umfasst eine Spracherkennungsvorrichtung 1 der Ausführungsform 1 eine Spracherkennungsverarbeitungseinheit 2 und eine Spracherkennungswörterbuch-Erzeugungseinheit 3. Die Spracherkennungsverarbeitungseinheit 2, die eine Komponente zum Ausführen von Spracherkennung einer mit einem Mikrofon 21 aufgenommenen Sprache ist, umfasst das Mikrofon 21, eine Spracherfassungseinheit 22, eine Akustikanalysatoreinheit 23, eine Akustikdatenabgleichseinheit 24, eine Spracherkennungswörterbuch-Speichereinheit 25, eine Adressdatenvergleichseinheit 26, eine Adressdatenspeichereinheit 27 und eine Ergebnisausgabeeinheit 28.
Zusätzlich umfasst die Spracherkennungswörterbuch-Erzeugungseinheit 3, die eine Komponente zum Erzeugen eines in der Spracherkennungswörterbuch-Speichereinheit 25 zu speichernden Spracherkennungswörterbuches ist, die Spracherkennungswörterbuch-Speichereinheit 25 und die Adressdatenspeichereinheit 27 zusammen mit der Spracherkennungsverarbeitungseinheit 2 und umfasst als zusätzliche Komponenten eine Wortausschnittseinheit 31, eine Auftrittsfrequenzberechnungseinheit 32 und eine Erkennungswörterbuch-Erzeugungseinheit 33.
Bezüglich einer Sprache, die ein Anwender äußert, um eine Adresse anzugeben, nimmt sie das Mikrofon 21 auf und wandelt die Spracherfassungseinheit 22 sie in ein digitales Sprachsignal um. Die Akustikanalysatoreinheit 23 führt eine akustische Analyse des aus der Spracherfassungseinheit 22 ausgegebenen Sprachsignals aus und wandelt es in eine Zeitreihe akustischer Merkmale der eingegebenen Sprache um. Die Akustikdatenabgleichseinheit 24 vergleicht die Zeitreihe akustischer Merkmale der eingegebenen Sprache, die durch die Akustikanalysatoreinheit 23 erfasst ist, mit dem in der Spracherkennungswörterbuch-Speichereinheit 25 gespeicherten Spracherkennungswörterbuch und gibt das wahrscheinlichste Erkennungsergebnis aus. Die Spracherkennungswörterbuch-Speichereinheit 25 ist ein Speicher zum Speichern des als ein mit der Zeitreihe akustischer Merkmale der eingegebenen Sprache zu vergleichendes Wortnetzwerk ausgedrückten Spracherkennungswörterbuchs. Die Adressdatenvergleichseinheit 26 führt Anfangsbereichs-Abgleiche des durch die Akustikdatenabgleichseinheit 24 ermittelten Erkennungsergebnisses mit den in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten durch. Die Adressdatenspeichereinheit 27 speichert die, die Wortkette der Adresse, die ein Ziel der Spracherkennung ist, bereitstellenden Adressdaten. Die Ergebnisausgabeeinheit 28 empfängt die partiell im Vergleich durch die Adressdatenvergleichseinheit 26 abgeglichenen Adressdaten und gibt die Adresse, welche die Adressdaten anzeigen, als ein finales Erkennungsergebnis aus.
Die Wortausschnittseinheit 31 ist eine Komponente zum Ausschneiden eines Wortes aus den in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten, welche eine Vokabularspeichereinheit ist. Die Auftrittsfrequenzberechnungseinheit 32 ist eine Komponente zum Berechnen der Frequenz eines durch die Wortausschnittseinheit 31 ausgeschnittenen Worts. Die Erkennungswörterbuch-Erzeugungseinheit 33 erzeugt ein Spracherkennungswörterbuch von Wörtern mit einer hohen Auftrittsfrequenz (nicht kleiner als ein vorgegebener Schwellenwert), die durch die Auftrittsfrequenzberechnungseinheit 32 berechnet wird, aus den durch die Wortausschnittseinheit 31 ausgeschnittenen Wörtern und speichert sie in der Spracherkennungswörterbuch-Speichereinheit 25.
Als Nächstes wird der Betrieb beschrieben.
Erzeugung des Spracherkennungswörterbuchs
2 ist ein Flussdiagramm, das einen Ablauf der Erzeugungsverarbeitung des Spracherkennungswörterbuchs in der Ausführungsform 1 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt: 2(a) zeigt das Flussdiagramm und 2(b) zeigt das Datenbeispiel.
Zuerst schneidet die Wortausschnittseinheit 31 ein Wort aus den in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten aus (Schritt ST1). Beispielsweise wenn die wie in 2(b) gezeigten Adressdaten 27a in der Adressdatenspeichereinheit 27 gespeichert sind, selektiert die Wortausschnittseinheit 31 ein Wort, das eine durch die Adressdaten 27a gezeigte Adresse bildet, sukzessive aus und erzeugt in 2(b) gezeigte Wortlistendaten 31a.
Als Nächstes berechnet die Auftrittsfrequenzberechnungseinheit 32 die Auftrittsfrequenz eines durch die Wortausschnittseinheit 31 ausgeschnittenen Worts. Aus den durch die Wortausschnittseinheit 31 ausgeschnittenen Worten erzeugt bezüglich der Worte mit der Auftrittsfrequenz nicht kleiner als dem vorgegebenen Schwellenwert, welche Auftrittsfrequenz durch die Auftrittsfrequenzberechnungseinheit 32 berechnet wird, die Erkennungswörterbuch-Erzeugungseinheit 33 das Spracherkennungswörterbuch. Im Beispiel von 2(b) extrahiert die Erkennungswörterbuch-Erzeugungseinheit 33 die Wortlistendaten 31a, die aus Wörtern „1“, „2“ und „3“ „banchi (Bereichsnummer)“ und „gou (Hausnummer)“ bestehen, mit der Auftrittsfrequenz nicht kleiner als dem vorgegebenen Schwellenwert „2“ aus den durch die Wortausschnittseinheit 31 ausgeschnittenen Wortlistendaten 31a, erzeugt das durch ein Wortnetzwerk der extrahierten Worte ausgedrückte Spracherkennungswörterbuch und speichert es in der Spracherkennungswörterbuch-Speichereinheit 25. Die Verarbeitung entspricht soweit Schritt ST2.
3 ist ein Diagramm, das ein Beispiel des durch die Erkennungswörterbuch-Erzeugungseinheit 33 erzeugten Spracherkennungswörterbuchs zeigt, welches das aus den in 2(b) gezeigten Wortlistendaten 32a erzeugte Spracherkennungswörterbuch zeigt. Wie in 3 gezeigt, speichert die Spracherkennungswörterbuch-Speichereinheit 25 ein aus den Worten mit der Auftrittsfrequenz nicht kleiner als dem vorgegebenen Schwellenwert zusammengesetztes Wortnetzwerk sowie ihre japanische Lesung. Im Wortnetzwerk bezeichnet der linkeste Knoten den Zustand vor Ausführen der Spracherkennung, entsprechen die von dem Knoten startenden Pfade den erkannten Wörtern, entspricht der Knoten, den die Pfade betreten, dem Zustand nach der Spracherkennung und bezeichnet der rechteste Knoten den Zustand, an dem die Spracherkennung endet. Nach der Spracherkennung eines Wortes, falls eine weitere der Spracherkennung zu unterwerfende Äußerung gegeben ist, kehrt die Verarbeitung zum linkesten Knoten zurück, und falls keine weitere Äußerung gegeben wird, schreitet die Verarbeitung zum rechtesten Knoten fort. Die als ein Pfad zu speichernden Wörter sind jene mit der Auftrittsfrequenz nicht kleiner als dem vorgegebenen Schwellenwert, und Worte mit der Auftrittsfrequenz kleiner als dem vorgegebenen Schwellenwert, das heißt Worte mit einer niedrigen Verwendungsfrequenz, werden nicht im Spracherkennungswörterbuch eingeschlossen. Beispielsweise wird in den Wortlistendaten 31a von 2(b) ein Eigenname eines Gebildes wie etwa „Nihon manshon“ aus dem Erzeugungsziel des Spracherkennungswörterbuchs ausgeschlossen.
Spracherkennungsverarbeitung
4 ist ein Flussdiagramm, das einen Ablauf der Spracherkennungsverarbeitung der Ausführungsform 1 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt: 4(a) zeigt das Flussdiagramm und 4(b) zeigt das Datenbeispiel.
Zuerst spricht ein Anwender eine Adresse (Schritt ST1a). Hierbei sei beispielhaft angenommen, dass der Anwender „ichibanchi“ spricht. Die Sprache die der Anwender äußert, wird durch das Mikrofon 21 aufgenommen und wird durch die Spracherfassungseinheit 22 in ein Digitalsignal umgewandelt.
Als Nächstes führt die Akustikanalysatoreinheit 23 eine akustische Analyse des in ein Digitalsignal durch die Spracherfassungseinheit 22 umgewandelten Sprachsignals durch und wandelt es in eine Zeitreihe (Vektorspalte) von akustischen Merkmalen der eingegebenen Sprache um (Schritt ST2a). Im in 4(b) gezeigten Beispiel wird „/I, chi, ba, N, chi/“ als die Zeitreihe akustischer Merkmale der eingegebenen Sprache „ichibanchi“ erfasst.
Danach vergleicht die Akustikdatenabgleichseinheit 24 die akustischen Daten der als Ergebnis der akustischen Analyse durch die Akustikanalysatoreinheit 23 ermittelten eingegebenen Sprache mit dem in der Spracherkennungswörterbuch-Speichereinheit 25 gespeicherten Spracherkennungswörterbuch und sucht nach dem Pfad, der am besten zu den Akustikdaten der eingegebenen Sprache passt, aus dem im Spracherkennungswörterbuch aufgezeichneten Wortnetzwerk (Schritt ST3a). Im in 4(b) gezeigten Beispiel wird aus dem Wortnetzwerk des in 3 gezeigten Spracherkennungswörterbuch der Pfad (1) → (2), der am besten zu /I, chi, ba, N, chi/ passt, welches die Akustikdaten der eingegebenen Sprache sind, als das Suchergebnis ausgewählt.
Danach extrahiert die Akustikdatenabgleichseinheit 24 die dem Pfad des Suchergebnisses entsprechende Wortkette aus dem Spracherkennungswörterbuch und liefert sie an die Adressdatenvergleichseinheit 26 (Schritt ST4a). In 4(b) wird die Wortkette „1 banchi“ der Adressdatenvergleichseinheit 26 zugeführt.
Nachfolgend führt die Adressdatenvergleichseinheit 26 einen anfänglichen Teilabgleich zwischen der durch die Akustikdatenabgleichseinheit 24 erfassten Wortkette und den in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten durch (Schritt ST5a). In 4(b) werden die in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten 27a und die durch die Akustikdatenabgleichseinheit 24 ermittelte Wortkette dem Anfangs-Teilabgleich unterworfen.
Schließlich wählt die Adressdatenvergleichseinheit 26 die Wortkette mit ihrem Anfangsteil zu der durch die Akustikdatenabgleichseinheit 24 ermittelten Wortkette passend aus den Wortketten der in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten aus und liefert sie an die Ergebnisausgabeeinheit 28. Somit gibt die Ergebnisausgabeeinheit 28 die Wortkette mit ihrem zu der durch die Akustikdatenabgleichseinheit 24 ermittelten Wortkette passenden Anfangsteil als das Erkennungsergebnis aus. Die Verarbeitung entspricht soweit Schritt ST6a. Übrigens wird im Beispiel von 4(b) „1 banchi Tokyo mezon“ aus den Wortketten der Adressdaten 27a ausgewählt und als das Erkennungsergebnis ausgegeben.
Wie oben beschrieben, umfasst gemäß der vorliegenden Ausführungsform 1 sie: die Akustikanalysatoreinheit 23 zum Ausführen akustischer Analyse des eingegebenen Sprachsignals und zum Umwandeln in die Zeitreihe akustischer Merkmale; die Adressdatenspeichereinheit 27 zum Speichern der Adressdaten, welche die Wörter des Spracherkennungsziels sind; die Wortausschnittseinheit 31 zum Ausschneiden des Worts aus den in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten; die Auftrittsfrequenzberechnungseinheit 32 zum Berechnen der Auftrittsfrequenz des durch die Wortausschnittseinheit 31 ausgeschnittenen Worts; die Erkennungswörterbuch-Erzeugungseinheit 33 zum Erzeugen des Spracherkennungswörterbuchs der Wörter mit einer Auftrittsfrequenz nicht kleiner als dem vorgegebenen Wert, welche Auftrittsfrequenz durch die Auftrittsfrequenzberechnungseinheit 32 berechnet wird; die Akustikdatenabgleichseinheit 24.zum Vergleichen der Zeitreihe akustischer Merkmale der durch die Akustikanalysatoreinheit 23 ermittelten eingegebenen Sprache mit dem durch die Erkennungswörterbuch-Erzeugungseinheit 33 erzeugten Spracherkennungswörterbuch und zum Auswählen der wahrscheinlichsten Wortkette als die eingegebene Sprache aus dem Spracherkennungswörterbuch; und die Adressdatenvergleichseinheit 26 zum Ausführen eines partiellen Abgleichs zwischen der durch die Akustikdatenabgleichseinheit 24 ausgewählten Wortkette und den in der Adressdatenspeichereinheit 27 gespeicherten Wörtern und zum Auswählen, als Spracherkennungsergebnis, des Wortes (Wortkette) das partiell zu der durch die Akustikdatenabgleichseinheit 24 ausgewählten Wortkette passt, aus den in der Adressdatenspeichereinheit 27 gespeicherten Wörtern.
Mit der so angeordneten Konfiguration kann sie die Notwendigkeit zum Erzeugen des Spracherkennungswörterbuchs für alle die Adresse bildenden Wörter hintanstellen und die für das Spracherkennungswörterbuch erforderliche Kapazität reduzieren. Zusätzlich kann sie durch Reduzieren der Anzahl von in dem Spracherkennungswörterbuch aufzuzeichnenden Wörtern anhand der Auftrittsfrequenz (Verwendungsfrequenz) die Anzahl von der Abgleichsverarbeitung mit den Akustikdaten der eingegebenen Sprache zu unterwerfenden Ziele reduzieren, wodurch sie in der Lage ist, den Erkennungsprozess zu beschleunigen. Weiterhin ermöglicht es der Anfangsteil-Abgleich zwischen der Wortkette, die das Ergebnis der Akustikdatenabgleichung ist, und der Wortkette der in der Adressdatenspeichereinheit 27 aufgezeichneten Adressdaten, die Erkennungsverarbeitung zu beschleunigen, während die Zuverlässigkeit des Erkennungsergebnisses aufrecht erhalten wird.
AUSFÜHRUNGSFORM 2
5 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung einer nicht erfindungsgemäßen Ausführungsform 2 zeigt. In 5 umfasst die Spracherkennungsvorrichtung 1A der Ausführungsform 2 die Spracherkennungsverarbeitungseinheit 2 und eine Spracherkennungswörterbuch-Erzeugungseinheit 3A. Die Spracherkennungsverarbeitungseinheit 2 hat dieselbe Konfiguration wie diejenige der vorstehenden Ausführungsform 1. Die Spracherkennungswörterbuch-Erzeugungseinheit 3A umfasst, wie in der vorstehenden Ausführungsform 1, die Spracherkennungswörterbuch-Speichereinheit 25, die Adressdatenspeichereinheit 27, die Wortausschnittseinheit 31 und die Auftrittsfrequenzberechnungseinheit 32.
Zusätzlich umfasst sie, als ihr eigene Komponenten der Ausführungsform 2, eine Erkennungswörterbuch-Erzeugungseinheit 33A und eine „garbage model“ (Papierkorbmodell)-Speichereinheit 34.
Bezüglich Worten mit einer hohen Auftrittsfrequenz (nicht kleiner einem vorgegebenen Schwellenwert) aus den durch die Wortausschnittseinheit 31 ausgeschnittenen Worten, welche Auftrittsfrequenz durch die Auftrittsfrequenzberechnungseinheit 32 berechnet wird, erzeugt die Erkennungswörterbuch-Erzeugungseinheit 33A ein Spracherkennungswörterbuch aus ihnen, fügt das aus der „garbage model“-Speichereinheit 34 ausgelesene „garbage model“ zu ihnen hinzu und speichert sie dann in der Spracherkennungswörterbuch-Speichereinheit 25. Die „garbage model“-Speichereinheit 34 ist ein Speicher zum Speichern eines Garbage-Modells. Hier ist das „garbage model“ ein Akustikmodell, das gleichförmig als ein Erkennungsergebnis ausgegeben wird, was immer die Äußerung sein mag.
Als Nächstes wird der Betrieb beschrieben.
Erzeugung des Spracherkennungswörterbuchs
6 ist ein Flussdiagramm, das einen Ablauf der Erzeugungsverarbeitung des Spracherkennungswörterbuchs in der Ausführungsform 2 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt: 6(a) zeigt das Flussdiagramm und 6(b) zeigt das Datenbeispiel.
Zuerst schneidet die Wortausschnittseinheit 31 ein Wort den in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten aus (Schritt ST1b). Beispielsweise wenn die wie in 6(b) gezeigten Adressdaten 27a in der Adressdatenspeichereinheit 27 gespeichert sind, selektiert die Wortausschnittseinheit 31 ein Wort, das eine durch die Adressdaten 27a gezeigte Adresse bildet, sukzessive aus und erzeugt in 6(b) gezeigte Wortlistendaten 31a.
Als Nächstes berechnet die Auftrittsfrequenzberechnungseinheit 32 die Auftrittsfrequenz eines durch die Wortausschnittseinheit 31 ausgeschnittenen Worts. Aus den durch die Wortausschnittseinheit 31 ausgeschnittenen Worten erzeugt bezüglich der Worte mit der Auftrittsfrequenz nicht kleiner als dem vorgegebenen Schwellenwert, welche Auftrittsfrequenz durch die Auftrittsfrequenzberechnungseinheit 32 berechnet wird, die Erkennungswörterbuch-Erzeugungseinheit 33A das Spracherkennungswörterbuch. Im Beispiel von 6(b) extrahiert die Erkennungswörterbuch-Erzeugungseinheit 33A die Wortlistendaten 32a, die aus Wörtern „1“, „2“ und „3“ „banchi“ und „gou“ bestehen, mit der Auftrittsfrequenz nicht kleiner als dem vorgegebenen Schwellenwert „2“ aus den durch die Wortausschnittseinheit 31 ausgeschnittenen Wortlistendaten 31a, und erzeugt das durch ein Wortnetzwerk der extrahierten Worte ausgedrückte Spracherkennungswörterbuch. Die Verarbeitung entspricht soweit Schritt ST2b.
Danach fügt die Erkennungswörterbuch-Erzeugungseinheit 33A das aus der „garbage model“-Speichereinheit 34 ausgelesene Garbage-Modell zum Wortnetzwerk im in Schritt ST2b erzeugten Spracherkennungswörterbuch hinzu und speichert es in der Spracherkennungswörterbuch-Speichereinheit 25 (Schritt ST3b).
7 ist ein Diagramm, das ein Beispiel des durch die Erkennungswörterbuch-Erzeugungseinheit 33A erzeugten Spracherkennungswörterbuchs zeigt, welches das aus den in 6(b) gezeigten Wortlistendaten 32a erzeugte Spracherkennungswörterbuch zeigt. Wie in 7 gezeigt, speichert die Spracherkennungswörterbuch-Speichereinheit 25 ein aus den Worten mit der Auftrittsfrequenz nicht kleiner als dem vorgegebenen Schwellenwert zusammengesetztes Wortnetzwerk sowie ihre japanische Lesung und das zum Wortnetzwerk hinzugefügte Garbage-Modell. Somit, wie in der vorstehenden Ausführungsform 1, sind Wörter mit Auftrittsfrequenz kleiner dem vorgegebenen Schwellenwert, das heißt Wörter mit einer niedrigen Verwendungsfrequenz, nicht im Spracherkennungswörterbuch beinhaltet. Beispielsweise wird in den Wortlistendaten 31a von 6(b) ein Eigenname eines Gebäudes wie etwa „Nihon manshon“ aus dem Erzeugungsziel des Spracherkennungswörterbuchs ausgeschlossen. Übrigens beschreiben Referenzen 1 bis 3 Details eines Garbage-Modells. Die vorliegende Erfindung setzt ein in Referenzen 1 bis 3 beschriebenes Garbage-Modell ein.

Referenz 1: Japanische Patentoffenlegungsschrift Nr. 11-15492
Referenz 2: Japanische Patentoffenlegungsschrift Nr. 2007-17736
Referenz 3: Japanische Patentoffenlegungsschrift Nr. 2009-258369

Spracherkennungsverarbeitung
Wenn eine Äußerung gegeben ist, die nur in dem Spracherkennungswörterbuch aufgezeichnete Worte enthält.
8 ist ein Flussdiagramm, das einen Ablauf der Spracherkennungsverarbeitung der Ausführungsform 2 zeigt und ist ein Diagramm, das ein in individuellen Schritten gehandhabtes Datenbeispiel zeigt: 8(a) zeigt das Flussdiagramm und 8(b) zeigt das Datenbeispiel.
Zuerst spricht der Anwender eine Adresse (Schritt ST1c). Man nehme hier an, dass der Anwender beispielsweise „ichibanchi“ spricht. Die Sprache, die der Anwender äußert, wird vom Mikrofon 21 aufgenommen und wird durch die Spracherfassungseinheit 22 in ein Digitalsignal umgewandelt.
Als Nächstes führt die Akustikanalysatoreinheit 23 eine Akustikanalyse des durch die Spracherfassungseinheit 22 in das Digitalsignal umgewandelten Sprachsignals durch und wandelt es in eine Zeitreihe (Vektorspalte) von Akustikmerkmalen der eingegebenen Sprache um (Schritt ST2c). Im in 8(b) gezeigten Beispiel wird /I, chi, ba, N, chi/ als Zeitreihe akustischer Merkmale der eingegebenen Sprache „ichibanchi“ ermittelt.
Danach vergleicht die Akustikdatenabgleichseinheit 24 Akustikdaten der als Ergebnis der Akustikanalyse durch die Akustikanalysatoreinheit 23 ermittelten eingegebenen Sprache mit dem in der Spracherkennungswörterbuch-Speichereinheit 25 gespeicherten Spracherkennungswörterbuch und sucht nach dem Pfad, der am besten zu den Akustikdaten der eingegebenen Sprache passt, aus dem in dem Spracherkennungswörterbuch aufgezeichneten Wortnetzwerk (Schritt ST3c).
Im in 8(b) gezeigten Beispiel, das ein Beispiel ist, das nur die in dem in 7 gezeigten Spracherkennungswörterbuch aufgezeichneten Wörter enthält, wie in 9 gezeigt, wird der Pfad (1) → (2) → (3), der am besten zu /I, chi, ba, N, chi/ passt, welches die Akustikdaten der eingegebenen Sprache sind, als das Suchergebnis aus dem in 7 gezeigten Wortnetzwerk des Spracherkennungswörterbuchs ausgewählt.
Danach extrahiert die Akustikdatenabgleichseinheit 24 die dem Pfad des Suchergebnisses entsprechende Wortkette aus dem Spracherkennungswörterbuch und liefert sie an die Adressdatenvergleichseinheit 26 (Schritt ST4c). In 8(b) wird die Wortkette „1 banchi“ der Adressdatenvergleichseinheit 26 zugeführt.
Nachfolgend führt die Adressdatenvergleichseinheit 26 einen Anfangsteilabgleich zwischen der durch die Akustikdatenabgleichseinheit 24 ermittelten Wortkette und den in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten durch (Schritt ST5c). In 8(b) werden die in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten 27a und die durch die Akustikdatenabgleichseinheit 24 ermittelte Wortkette dem Anfangsteilabgleich unterworfen.
Schließlich wählt die Adressdatenvergleichseinheit 26 die Wortkette mit ihrem zur durch die Akustikdatenabgleichseinheit 24 ermittelten Wortkette passenden Anfangsteil aus den Wortketten der in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten aus und liefert sie an die Ergebnisausgabeeinheit 28. Somit gibt die Ergebnisausgabeeinheit 28 die Wortkette mit ihrem zu der durch die Akustikdatenabgleichseinheit 24 ermittelten Wortkette passenden Anfangsteil als das Erkennungsergebnis aus. Die Verarbeitung entspricht soweit Schritt ST6c. übrigens wird im Beispiel von 8(b) „1 banchi“ aus den Wortketten der Adressdaten 27a ausgewählt und wird als das Erkennungsergebnis ausgegeben.
Wenn eine Äußerung angegeben wird, welche nicht in dem Spracherkennungswörterbuch aufgezeichnete Wörter enthält.
10 ist ein Flussdiagramm, das einen Ablauf der Spracherkennungsverarbeitung der Äußerung zeigt, welche nicht in dem Spracherkennungswörterbuch aufgezeichnete Wörter enthält, und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt: 10(a) zeigt das Flussdiagramm und 10(b) zeigt das Datenbeispiel.
Zuerst spricht ein Anwender eine Adresse (Schritt ST1d). Man nehme hier an, dass der Anwender beispielsweise „sangou nihon manshon eitou“ spricht. Die Sprache, die die der Anwender äußert, wird vom Mikrofon 21 aufgenommen und wird durch die Spracherfassungseinheit 22 in ein Digitalsignal umgewandelt.
Als Nächstes führt die Akustikanalysatoreinheit 23 eine Akustikanalyse des durch die Spracherfassungseinheit 22 in das Digitalsignal umgewandelten Sprachsignals durch und wandelt es in eine Zeitreihe (Vektorspalte) von Akustikmerkmalen der eingegebenen Sprache um (Schritt ST2d). Im in 10(b) gezeigten Beispiel, wird /Sa, N, go, u, S(3)/ als die Zeitreihe von Akustikmerkmalen der eingegebenen Sprache „sangou nihon manshon eitou“ ermittelt. Hier ist S(n) eine Notation, welche repräsentiert, dass ein Garbage-Modell dafür ersetzt wird, wobei n die Anzahl von Worten einer Zeichenkette ist, deren Lesung nicht entschieden werden kann.
Danach vergleicht die Akustikdatenabgleichseinheit 24 Akustikdaten der als Ergebnis der Akustikanalyse durch die Akustikanalysatoreinheit 23 ermittelten eingegebenen Sprache mit dem in der Spracherkennungswörterbuch-Speichereinheit 25 gespeicherten Spracherkennungswörterbuch und sucht nach dem Pfad, der am besten zu den Akustikdaten der eingegebenen Sprache passt, aus dem in dem Spracherkennungswörterbuch aufgezeichneten Wortnetzwerk (Schritt ST3d).
Im in 10(b) gezeigten Beispiel, da sie eine Äußerung ist, die Worte enthält, die nicht in dem in 7 gezeigten Spracherkennungswörterbuch aufgezeichnet sind, wie in 11 gezeigt, wird der Pfad (4) → (5), der am besten zu /Sa, N, go, u/ passt, welches die Akustikdaten der eingegebenen Sprache sind, aus dem Wortnetzwerk des Spracherkennungswörterbuchs, das in 7 gezeigt ist, gesucht und wird bezüglich der Wortkette, die nicht im in 7 gezeigten Spracherkennungswörterbuch enthalten ist, ein Abgleich des Garbage-Modells vorgenommen und der Pfad (4) → (5) → (6) wird als das Suchergebnis ausgewählt.
Danach extrahiert die Akustikdatenabgleichseinheit 24 die dem Pfad des Suchergebnisses entsprechende Wortkette aus dem Spracherkennungswörterbuch und liefert sie an die Adressdatenvergleichseinheit 26 (Schritt ST4d). in 10(b) wird die Wortkette „3 gou garbage“ der Adressdatenvergleichseinheit 26 zugeführt.
Nachfolgend entfernt die Adressdatenvergleichseinheit 26 das „garbage“ aus der durch die Akustikdatenabgleichseinheit 24 ermittelten Wortkette und führt einen Anfangsteilabgleich zwischen der Wortkette und den in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten durch (Schritt ST5d). In 10(b) erfahren die in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten 27a und die durch die Akustikdatenabgleichseinheit 24 ermittelte Wortkette die Anfangsteilabgleichung.
Schließlich wählt die Adressdatenvergleichseinheit 26 die Wortkette mit ihrem zur Wortkette passenden Anfangsteil, aus welchem der „garbage“ entfernt ist, aus den Wortketten der in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten aus und liefert sie an die Ergebnisausgabeeinheit 28. Somit gibt die Ergebnisausgabeeinheit 28 die Wortkette mit ihrem zum Erkennungsergebnis passenden Anfangsteil aus. Soweit entspricht die Verarbeitung Schritt ST6d. Übrigens wird im Beispiel von 10(b) „3 gou Nihon manshon A tou“ aus den Wortketten der Adressdaten 27a ausgewählt und wird als das Erkennungsergebnis ausgegeben.
Wie oben beschrieben, umfasst gemäß der vorliegenden Ausführungsform 3 sie zusätzlich zu der zur vorstehenden Ausführungsform 1 ähnlichen Konfiguration die „garbage model“-Speichereinheit 34 zum Speichern eines Garbage-Modells, wobei die Erkennungswörterbuch-Erzeugungseinheit 33A das Spracherkennungswörterbuch aus dem Wortnetzwerk erzeugt, das aus den Worten mit einer Auftrittsfrequenz nicht kleiner als dem vorgegebenen Wert, plus dem aus der „garbage model“-Speichereinheit 34 ausgelesenen Garbage-Modell aufgebaut ist, welche Auftrittsfrequenz durch die Auftrittsfrequenzberechnungseinheit 32 berechnet wird; und die Adressdatenvergleichseinheit 26 führt einen partiellen Abgleich zwischen der Wortkette, welche durch die Akustikdatenabgleichseinheit 24 ausgewählt ist, und aus der das Garbage-Modell entfernt ist, und den in der Adressdatenspeichereinheit 27 gespeicherten Worten durch und setzt das Wort (Wortkette), das teils mit der Wortkette übereinstimmt, aus der das Garbage-Modell entfernt worden ist, als das Erkennungsergebnis aus den in der Adressdatenspeichereinheit 27 Worten ein.
Mit der so angeordneten Konfiguration kann die Notwendigkeit zum Erzeugen des Spracherkennungswörterbuchs für alle Wörter, die die Adresse bilden, hintangestellt werden und die für das Spracherkennungswörterbuch erforderliche Kapazität reduziert werden, wie in der vorstehenden Ausführungsform 1. Zusätzlich kann sie durch Reduzieren der Anzahl von in dem Spracherkennungswörterbuch in Übereinstimmung mit der Auftrittsfrequenz (Verwendungsfrequenz) aufzuzeichnenden Wörter die Anzahl von der Abgleichsverarbeitung mit den Akustikdaten der eingegebenen Sprache zu unterwerfenden Zielen reduzieren, wodurch sie in der Lage ist, die Erkennungsverarbeitung zu beschleunigen. Weiterhin ermöglicht es der Anfangsteil-Abgleich zwischen der Wortkette, die das Ergebnis des akustischen Datenabgleichs ist, und der Wortkette der in der Adressdatenspeichereinheit 27 aufgezeichneten Adressdaten, die Erkennungsverarbeitung zu beschleunigen, während die Zuverlässigkeit des Erkennungsergebnisses aufrecht erhalten wird.
Da übrigens die Ausführungsform 2 das Garbage-Modell hinzufügt, ist es nicht unwahrscheinlich, dass ein zu erkennendes Wort fehlerhaft als ein Garbage erkannt werden kann. Jedoch hat die Ausführungsform 2 den Vorteil, dass sie in der Lage ist, mit einem Wort umzugehen, das nicht aufgezeichnet ist, während die Kapazität des Spracherkennungswörterbuchs im Zaum gehalten wird.
AUSFÜHRUNGSFORM 3
12 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung einer Ausführungsform 3 gemäß der vorliegenden Erfindung zeigt. In 12 werden dieselben oder gleiche Funktionen wie die in 1 gezeigten Komponenten ausführende Komponenten durch dieselben Bezugszeichen bezeichnet und ihre redundante Beschreibung wird weggelassen. Die Spracherkennungsvorrichtung 1B der Ausführungsform 3 umfasst das Mikrofon 21, die Spracherfassungseinheit 22, die Akustikanalysatoreinheit 23, eine Akustikdatenabgleichseinheit 24A, eine Spracherkennungswörterbuch-Speichereinheit 25A, eine Adressdatenvergleichseinheit 26A, die Adressdatenspeichereinheit 27 und die Ergebnisausgabeeinheit 28.
Die Akustikdatenabgleichseinheit 24A vergleicht die Zeitreihe akustischer Merkmale der durch die Akustikanalysatoreinheit 23 erfassten eingegebenen Sprache mit dem Spracherkennungswörterbuch, das nur in der Spracherkennungswörterbuch-Speichereinheit 25A gespeicherte Zahlen enthält und gibt das wahrscheinlichste Erkennungsergebnis aus. Die Spracherkennungswörterbuch-Speichereinheit 25A ist ein Speicher zum Speichern des als ein Wort- (numerisch) Netzwerk ausgedrückten Spracherkennungswörterbuchs, das mit der Zeitreihe der Akustikmerkmale der eingegebenen Sprache zu vergleichen ist.
Übrigens kann bezüglich des Erzeugens des nur aus, Worte einer gewissen Kategorie bildenden Zahlen bestehenden Spracherkennungswörterbuchs eine existierende Technik verwendet werden. Die Adressdatenvergleichseinheit 26A ist eine Komponente zum Ausführen eines Anfangsteil-Abgleichs des Erkennungsergebnisses der durch die Akustikdatenabgleichseinheit 24A ermittelten Zahl mit dem numerischen Teil der in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten.
13 ist ein Diagramm, das ein Beispiel des Spracherkennungswörterbuchs in der Ausführungsform 3 zeigt. Wie in 13 gezeigt, speichert die Spracherkennungswörterbuch-Speichereinheit 25A ein aus Zahlen und ihrer japanischen Lesung zusammengesetztes Wortnetzwerk. Wie gezeigt, weist die Ausführungsform 3 das Spracherkennungswörterbuch aus, das nur Zahlen enthält, die in einer Wortkette enthalten sind, die eine Adresse repräsentiert, und erfordert es nicht, das Spracherkennungswörterbuch abhängig von den Adressdaten zu erzeugen. Entsprechend braucht es die Wortausschnittseinheit 31, die Auftrittsfrequenzberechnungseinheit 32 und die Erkennungswörterbuch-Erzeugungseinheit 33 nicht, wie in den vorstehenden Ausführungsformen 1 oder 2.
Als Nächstes wird der Betrieb beschrieben.
Hier werden Details der Spracherkennungsverarbeitung beschrieben.
14 ist ein Flussdiagramm, das einen Ablauf der Spracherkennungsverarbeitung der Ausführungsform 3 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt: 14(a) zeigt das Flussdiagramm und 14(b) zeigt das Datenbeispiel. Zuerst spricht ein Anwender nur einen numerischen Teil einer Adresse (Schritt ST1e). Im Beispiel von 14(b) sei angenommen, dass der Anwender beispielsweise „ni (zwei)“ spricht. Die Sprache, die der Anwender äußert, wird mit dem Mikrofon 21 aufgenommen und wird durch die Spracherfassungseinheit 22 in ein Digitalsignal umgewandelt.
Als Nächstes führt die Akustikanalysatoreinheit 23 eine Akustikanalyse des durch die Spracherfassungseinheit 22 in das Digitalsignal umgewandelten Sprachsignals aus und wandelt es in eine Zeitreihe (Vektorspalte) akustischer Merkmale der eingegebenen Sprache um (Schritt ST2e). Im in 14(b) gezeigten Beispiel wird /ni/ als Zeitreihe von Akustikmerkmalen der eingegebenen Sprache „ni“ ermittelt.
Danach vergleicht die Akustikdatenabgleichseinheit 24A die Akustikdaten der als ein Ergebnis der Akustikanalyse durch die Akustikanalysatoreinheit 23 ermittelte eingegebenen Sprache mit dem in der Spracherkennungswörterbuch-Speichereinheit 25A gespeicherten Spracherkennungswörterbuch und sucht nach dem Pfad, der am besten zu den Akustikdaten der eingegebenen Sprache passt, aus dem in dem Spracherkennungswörterbuch aufgezeichneten Wortnetzwerk (Schritt ST3e).
In dem in 14(b) gezeigten Beispiel wird aus dem Wortnetzwerk des in 13 gezeigten Spracherkennungswörterbuch der Pfad (1) → (2), der am besten zu /ni/ passt, welches die Akustikdaten der eingegebenen Sprache sind, als das Suchergebnis ausgewählt.
Danach extrahiert die Akustikdatenabgleichseinheit 24A die Wortkette entsprechend dem Pfad des Suchergebnisses aus dem Spracherkennungswörterbuch und liefert sie an die Adressdatenvergleichseinheit 26A (Schritt ST4e). In 14(b) wird die Zahl „2“ der Adressdatenvergleichseinheit 26A zugeführt.
Nachfolgend führt die Spracherkennungswörterbuch-Speichereinheit 25A einen Anfangsteilabgleich zwischen der Wortkette (Zahlenkette), die durch die Akustikdatenabgleichseinheit 24A erfasst ist, und den in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten durch (Schritt ST5e). In 14(b) werden die in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten 27a? und die durch die Akustikdatenabgleichseinheit 24A ermittelte Zahl „2“ dem Anfangsteil-Abgleich unterworfen.
Schließlich wählt die Adressdatenvergleichseinheit 26A die Wortkette mit ihrem zu der durch die Akustikdatenabgleichseinheit 24A ermittelten Wortkette passenden Anfangsteil aus den Wortketten der in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten aus und liefert sie an die Ergebnisausgabeeinheit 28. Somit gibt die Ergebnisausgabeeinheit 28 die Wortkette mit ihrem zur durch die Akustikdatenabgleichseinheit 24A ermittelten Wortkette passenden Anfangsteil als das Erkennungsergebnis aus. Soweit entspricht die Verarbeitung dem Schritt ST6e. Im Beispiel von 14(b) wird „2 banchi“ aus den Wortketten der Adressdaten 27a ausgewählt und wird als das Erkennungsergebnis ausgegeben.
Wie oben beschrieben, umfasst gemäß der vorliegenden Ausführungsform 2 sie: die Akustikanalysatoreinheit 23 zum Ausführen einer Akustikanalyse des eingegebenen Sprachsignals und zum Umwandeln in die Zeitreihe von Akustikmerkmalen; die Adressdatenspeichereinheit 27 zum Speichern der Adressdaten, welche die Worte des Spracherkennungsziels sind; die Spracherkennungswörterbuch-Speichereinheit 25A zum Speichern des aus als Wörter einer vorgegebenen Kategorie verwendeten Zahlen bestehenden Spracherkennungswörterbuchs; die Akustikdatenabgleichseinheit 24A zum Vergleichen der Zeitreihe akustischer Merkmale der eingegebenen Sprache, die durch die Akustikanalysatoreinheit 23 ermittelt ist, mit dem aus der Spracherkennungswörterbuch-Speichereinheit 25A ausgelesenen Spracherkennungswörterbuch, und wählt die wahrscheinlichste Zeichenkette aus dem Spracherkennungswörterbuch als die eingegebene Sprache aus; und die Adressdatenvergleichseinheit 26 zum Ausführen eines partiellen Abgleichs zwischen der durch die Akustikdatenabgleichseinheit 24A ausgewählten Wortkette und den in der Adressdatenspeichereinheit 27 gespeicherten Wörtern, und wählt als das Spracherkennungsergebriis das Wort (Wortkette) aus, das partiell zur durch die Akustikdatenabgleichseinheit 24A ausgewählten Wortkette passt, aus den in der Adressdatenspeichereinheit 27 gespeicherten Worten. Mit der derart angeordneten Konfiguration bietet sie einen weiteren Vorteil, in der Lage zu sein, die Notwendigkeit zum Erzeugen des Spracherkennungswörterbuchs, das von den Adressdaten abhängt, vorab hintanzustellen, zusätzlich zu denselben Vorteilen der vorstehenden Ausführungsformen 1 und 2.
Übrigens, obwohl die vorstehende Ausführungsform 3 den Fall zeigt, der das Spracherkennungswörterbuch aus einem nur aus Zahlen bestehenden Wortnetzwerk erzeugt, ist auch eine Konfiguration möglich, welche die Erkennungswörterbuch-Erzeugungseinheit 33 und die „garbage model“-Speichereinheit 34 umfasst, wie in der vorstehenden Ausführungsform 2, und die Erkennungswörterbuch-Erzeugungseinheit 33 veranlasst, ein Garbage-Modell zu dem nur aus Zahlen bestehenden Wortnetzwerk hinzuzufügen. In diesem Fall ist es nicht unwahrscheinlich, dass ein zu erkennendes Wort fehlerhaft als ein „Garbage“ erkannt wird. Die Ausführungsform 3 jedoch hat den Vorteil, in der Lage zu sein, mit einem Wort klarzukommen, das nicht aufgezeichnet wurde, während die Kapazität des Spracherkennungswörterbuchs im Zaum gehalten wird.
Zusätzlich, obwohl die vorstehende Ausführungsform 3 den Fall zeigt, der das nur aus dem numerischen Teil der Adresse, die Worte des Spracherkennungsziels sind, bestehende Spracherkennungswörterbuch behandelt, kann sie auch ein Spracherkennungswörterbuch handhaben, das aus Worten einer anderen vorgegebenen Kategorie als Zahlen besteht. Als eine Kategorie von Worten gibt es persönliche Namen, regionale und Ländernamen, das Alphabet und Spezialzeichen in Wortketten, die Adressen bilden, die Spracherkennungsziele sind.
Weiterhin, obwohl die vorstehenden Ausführungsformen 1 bis 3 einen Fall zeigen, in welchem die Adressdatenvergleichseinheit 26 einen Anfangsteil-Abgleich mit dem in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten ausführt, ist die vorliegende Erfindung nicht auf Anfangsteil-Abgleich beschränkt. Solange wie dies ein Teilabgleich ist, kann es intermediärer Abgleich oder Schlussteil-Abgleich sein.
AUSFÜHRUNGSFORM 4
15 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung einer Ausführungsform 4 gemäß der vorliegenden Erfindung zeigt. In 15 umfasst die Spracherkennungsvorrichtung 1C der Ausführungsform 4 eine Spracherkennungsverarbeitungseinheit 2A und die Spracherkennungswörterbuch-Erzeugungseinheit 3A. Die Spracherkennungswörterbuch-Erzeugungseinheit 3A weist dieselbe Konfiguration wie diejenige der vorstehenden Ausführungsform 2 auf. Die Spracherkennungsverarbeitungseinheit 2A umfasst, wie in der vorstehenden Ausführungsform 1, das Mikrofon 21, die Spracherfassungseinheit 22, die Akustikanalysatoreinheit 23, die Spracherkennungswörterbuch-Speichereinheit 25 und die Adressdatenspeichereinheit 27 und umfasst als für die Ausführungsform 4 einmalige Komponenten eine Akustikdatenabgleichseinheit 24B, eine Abrufvorrichtung 40 und eine Abrufergebnisausgabeeinheit 28a. Die Akustikdatenabgleichseinheit 24B gibt ein Erkennungsergebnis mit einer Wahrscheinlichkeit nicht kleiner als ein vorgegebener Wert als ein Wortgitter aus. Der Ausdruck „Wortgitter“ bezieht sich auf eine Verbindung eines oder mehrerer Wörter, die als eine Wahrscheinlichkeit nicht kleiner als den vorgegebenen Wert für die Äußerung aufweisend erkannt werden, die zu demselben akustischen Merkmal passen und parallel angeordnet sind, und in Reihe in der Reihenfolge der Äußerung verbunden sind.
Die Abrufvorrichtung 40 ist eine Vorrichtung, die aus in einer indizierten Datenbank 43 aufgezeichneten Adressdaten die wahrscheinlichste Wortkette zum Erkennungsergebnis, das durch die Akustikdatenabgleichseinheit 24B ermittelt ist, abruft, wobei ein Fehler der Spracherkennung berücksichtigt wird, und es an die Abrufergebnisausgabeeinheit 28a liefert. Sie umfasst eine Merkmalsvektorextraktionseinheit 41, Niederdimensionalprojektionsverarbeitungseinheiten 42 und 45, die indizierte Datenbank (ab jetzt als indizierte DB abgekürzt) 43, eine Sicherheitsvektorextraktionseinheit 44 und eine Abrufeinheit 46. Die Abrufergebnisausgabeeinheit 28a ist eine Komponente zum Ausgeben des Abrufergebnisses durch die Abrufvorrichtung 40.
Die Merkmalsvektorextraktionseinheit 41 ist eine Komponente zum Extrahieren eines Dokumentmerkmalsvektors aus einer Wortkette einer durch die in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten bezeichneten Adresse. Der Ausdruck „Dokumentmerkmalsvektor“ bezieht sich auf einen Merkmalsvektor, der verwendet wird, um durch Eingeben eines Wortes in das Internet oder dergleichen nach einer für das Wort relevante Webseite (Dokument) zu suchen und die als ihre Elemente Gewichtungen entsprechend der Auftrittsfrequenz der Worte für jedes Dokument aufweist. Die Merkmalsvektorextraktionseinheit 41 behandelt die in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten als ein Dokument und ermittelt, den Dokument-Merkmalsvektor, der als sein Element die der Auftrittsfrequenz eines Wortes in den Adressdaten entsprechende Gewichtung hat. Eine Merkmalsmatrix, welche die Dokument-Merkmalsvektoren in einer Matrix W (Anzahl von Wörtern M * Anzahl von Adressdaten N) anordnet, die als ihre Elemente die Auftrittsfrequenz wij des Worts ri in den Adressdaten dj aufweist. Übrigens wird ein Wort mit einer höheren Auftrittsfrequenz als wichtiger angesehen.
16 ist ein Diagramm, das ein Beispiel der in der Spracherkennungsvorrichtung der Ausführungsform 4 verwendeten Merkmalsmatrix illustriert. Hier, obwohl nur „1“, „2“, „3“, „gou“ und „banchi“ als ein Wort gezeigt sind, werden die Dokument-Merkmalsvektoren in der Praxis für Worte mit der Auftrittsfrequenz in den Adressdaten nicht kleiner als der vorgegebene Wert definiert. Bezüglich der Adressdaten, da es bevorzugt wird, in der Lage zu sein, „1 banchi 3 gou“ von „3 banchi 1 gou“ zu unterscheiden, ist es auch vorstellbar, den Dokument-Merkmalsvektor von einer Reihe von Wörtern zu definieren. 17 ist ein Diagramm, das eine Merkmalsmatrix in solche einen Fall zeigt. In diesem Fall wird die Anzahl von Reihen der Merkmalsmatrix das Quadrat der Anzahl von Wörtern M.
Die Niederdimensionalprojektionsverarbeitungseinheit 42 ist eine Komponente zum Projizieren des durch die Merkmalsvektorextraktionseinheit 41 extrahierten Dokument-Merkmalsvektor auf einen niederdimensionalen Dokument-Merkmalsvektor. Die vorstehende Merkmalsmatrix W kann allgemein auf eine niedrigere Merkmalsdimension projiziert werden. Beispielsweise ermöglicht es die Verwendung einer in Referenz 4 eingesetzten Singulärwert-Dekomposition (SVD), eine Dimensionskompression auf eine vorgesehe Merkmalsdimension auszuführen.
Referenz 4: Japanische Patentoffenlegungsschrift Nr. 2004-5600.
Die Singulärwert-Dekomposition (SVD) berechnet einen niederdimensionalen Merkmalsvektor wie folgt.
Es sei angenommen, dass die Merkmalsmatrix W eine t * d Matrix mit einem Rang r ist. Zusätzlich wird angenommen, dass eine t * r Matrix, die in r Spalten angeordnete d dimensionale orthogonale Vektoren aufweist, T ist; eine d * r Matrix, die d dimensionale orthogonale Vektoren durch r Spalten angeordnet aufweist, ist D und eine r * r Diagonalmatrix, die W Einzelwerte platziert auf den diagonalen Elementen in absteigender Reihenfolge aufweist, ist S.
Gemäß dem Singulärwert-Dekompositions- (SVD) Theorem kann W als der folgende Ausdruck (1) dekomponiert werden. $W_{t * d} = T_{t * r} S_{r * r} D_{d * r}^{T}$
Es sei angenommen, dass durch Entfernen der (k+1)-ten Spalte auf und nach der T, erhaltene Matrizen S und D durch T(k), S(k) und D(k) bezeichnet sind. Eine Matrix W(k), die durch Multiplizieren der Matrix W mit D(k)^T ab links und Transformieren in k Zeilen erhalten wird, wird durch den nachfolgenden Ausdruck (2) gegeben. $W {(k)}_{k * d} = T {(k)}_{t * k}^{T} W_{t * d}$
Substituieren des vorstehenden Ausdrucks (1) in den vorstehenden Ausdruck (2) gibt den folgenden Ausdruck (3), weil T(k)^TT(k) eine Einheitsmatrix ist. $W {(k)}_{k * d} = S {(k)}_{k * k} D {(k)}_{d * k}^{T}$
Ein durch den vorstehenden Ausdruck (2) oder den vorstehenden Ausdruck (3) berechneter k dimensionaler Vektor entsprechend jeder Spalte von W(k)_k*d ist ein niederdimensionaler Merkmalsvektor, der das Merkmal aller Adressdaten repräsentiert. W(k)_k*d wird zu einer k dimensionalen Matrix, die W mit dem kleinsten Fehler im Hinblick auf die Frobeniusnorm approximiert. Die Gradreduktion, die k < r mit sich bringt, ist eine Operation, die nicht nur die Berechnungsmenge reduziert, sondern auch eine Umwandlungsoperation, die im Abstrakten die Worte mit k Konzeptionen verwendenden Dokumenten in Bezug setzt und den Vorteil hat, in der Lage zu sein, ähnliche Worte oder ähnliche Dokumente zu integrieren.
Zusätzlich hängt gemäß dem niederdimensionalen Dokument-Merkmalsvektor die Niederdimensionalprojektionsverarbeitungseinheit 42 den Niederdimensionaldokumentmerkmalsvektor an die in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten als einen Index an und zeichnet sie in der indizierten DB 43 auf.
Die Gewissheitsvektor-Extraktionseinheit 44 ist eine Komponente zum Extrahieren eines Gewissheitsvektors aus dem Wort-Gitter, die durch die Akustikdatenabgleichseinheit 24B ermittelt ist. Der Ausdruck „Gewissheitsvektor“ bezieht sich auf einen Vektor, der die Wahrscheinlichkeit repräsentiert, dass ein Wort tatsächlich in einem Sprachschritt in derselben Form wie der Dokument-Merkmalsvektor gesprochen ist. Die Wahrscheinlichkeit, dass ein Wort im Wortschritt gesprochen wird, ist ein Rang des durch die Akustikdatenabgleichseinheit 24B abgerufenen Pfades. Wenn beispielsweise ein Anwender „hachi banchi“ spricht und erkannt wird, dass die Wahrscheinlichkeit des Ausstoßens des Wortes „8 banchi“ 0,8 ist und die Wahrscheinlichkeit des Äußerns des Wortes „1 banchi“ 0,6 ist, wird die tatsächlich gesprochene Wahrscheinlichkeit 0,8 für „8“, „0,6“ für „1“, und 1 für „banchi“.
Die niederdimensionale Projektionsverarbeitungseinheit 45 ermittelt einen Niederdimensional-Gewissheitsvektor, welcher dem Niederdimensionaldokumentmerkmalsvektor entspricht, durch Anwenden derselben Projektionsverarbeitung (Multiplizieren von T(k)_t*k ^T ab links) wie derjenige, der am Dokument-Merkmalsvektor angewendet wird, auf den Gewissheitsvektor, der durch die Gewissheitsvektor-Extraktionseinheit 44 extrahiert wird.
Die Abrufeinheit 46 ist eine Komponente zum Abrufen der Adressdaten mit dem Niederdimensionaldokumentmerkmalsvektor, der übereinstimmt mit dem oder kürzest in der Distanz zu dem Niederdimensionalgewissheitsvektor ist, der durch die niederdimensionale Projektionsverarbeitungseinheit 45 aus der indizierten DB 43 ermittelt wird. Hier ist die Distanz zwischen dem Niederdimensionalgewissheitsvektor und dem Niederdimensionaldokumentmerkmalsvektor die Quadratwurzel der Summe der Quadrate von Differenzen zwischen den individuellen Elementen.
Als Nächstes wird die Operation beschrieben. Hier werden Details der Spracherkennungsverarbeitung beschrieben.
18 ist ein Flussdiagramm, das einen Ablauf der Spracherkennungsverarbeitung der Ausführungsform 4 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt: 18(a) zeigt das Flussdiagramm und 18(b) zeigt das Datenbeispiel.
Zuerst spricht ein Anwender eine Adresse (St1f). Im Beispiel von 18(b) sei angenommen, dass der Anwender „ichibanchi“ spricht. Die Sprache, die der Anwender äußert, wird mit dem Mikrofon 21 aufgenommen, und wird durch die Spracherfassungseinheit 22 in ein digitales. Signal umgewandelt.
Als Nächstes führt die Akustikanalysatoreinheit 23 eine akustische Analyse des in das Digitalsignal durch die Spracherfassungseinheit 22 umgewandelten Sprachsignals durch und wandelt in eine Zeitreihe (Vektorspalte) von akustischen Merkmalen der eingegebenen Sprache um (ST2f). Im in 18(b) gezeigten Beispiel wird angenommen, dass „/I, chi, go, ba, N, chi/“, welche eine fehlerhafte Erkennung enthält, in der Zeitreihe von akustischen Merkmalen der eingegebenen Sprache „ichibanchi“ ermittelt wird.
Danach vergleicht die Akustikdatenabgleichseinheit 24B die Akustikdaten der eingegebenen Sprache, die als ein Ergebnis der Akustikanalyse durch die Akustikanalysatoreinheit 23 ermittelt ist, mit dem in der Spracherkennungswörterbuch-Speichereinheit 25 gespeicherten Spracherkennungswörterbuch und sucht nach einem Pfad, der zu den Akustikdaten der eingegebenen Sprache mit einer Wahrscheinlichkeit nicht kleiner als dem vorgegebenen Wert sucht, aus dem im Spracherkennungswörterbuch aufgezeichneten Wortnetzwerk (ST3f).
Bezüglich des Beispiels von 18(b) wird aus dem Wortnetzwerk des in 19 gezeigten Spracherkennungswörterbuch ein Pfad (1) → (2) → (3) → (4), der zu den Akustikdaten der eingegebenen Sprache „/I, chi, go, ba, N, chi/“ mit aller Wahrscheinlichkeit nicht kleiner als dem vorgegebenen Wert passt, als ein Suchergebnis ausgewählt. Um die Erläuterung zu vereinfachen, wird hier angenommen, dass es nur eine Wortkette, die eine Wahrscheinlichkeit nicht kleiner als den vorgegebenen Wert aufweist, als ein Erkennungsergebnis gibt. Dies gilt auch für das nachfolgende Ausführungsbeispiel 5.
Danach extrahiert die Akustikdatenabgleichseinheit 24B das Wort-Gitter entsprechend dem Pfad des Suchergebnisses aus dem Spracherkennungswörterbuch und liefert es an die Abrufvorrichtung 40 (Schritt ST4f). In 18(b) wird die Wortkette „1 gou banchi“, die eine fehlerhafte Erkennung enthält, der Abrufvorrichtung 40 geliefert.
Die Abrufvorrichtung 40 hängt einen Index an die in der Adressdatenspeichereinheit 27 gespeicherten Adressdaten in Übereinstimmung mit dem Niederdimensionaldokumentmerkmalsvektor in den Adressdaten an und speichert das Ergebnis in der indizierten DB 43.
Wenn das durch die Akustikdatenabgleichseinheit 24B ermittelte Wort-Gitter eingegeben wird, entfernt die Gewissheitsvektor-Extraktionseinheit 44 in der Abrufvorrichtung 40 ein Garbage-Modell aus dem eingegebenen Wort- Gitter und extrahiert einen Gewissheitsvektor aus dem verbleibenden Wort-Gitter. Nachfolgend ermittelt die niederdimensionale Projektionsverarbeitungseinheit 45 einen Niederdimensionalgewissheitsvektor entsprechend dem Niederdimensionaldokumentmerkmalsvektor durch Ausführen derselben Projektionsverarbeitung wie derjenigen, die auf den Dokumentmerkmalsvektor am aus der Gewissheitsvektor-Extraktionseinheit 44 extrahierten Gewissheitsvektor angewendet wird.
Nachfolgend ruft die Abrufeinheit 46 aus der indizierten DB 43 die Wortkette der Adressdaten mit dem Niederdimensionaldokumentmerkmalsvektor ab, der mit dem Niederdimensionalgewissheitsvektor der durch die Niederdimensionalprojektionsverarbeitungseinheit 45 ermittelten eingegebenen Sprache übereinstimmt (Schritt ST5f).
Die Abrufeinheit 46 selektiert die Wortkette der Adressdaten mit dem Niederdimensionaldokumentmerkmalsvektor, der übereinstimmt mit oder in Distanz am nächsten ist am Niederdimensionalgewissheitsvektor der eingegebenen Sprache, aus der Wortkette der in der indizierten DB 43 aufzuzeichnenden Adressdaten und liefert sie an die Abrufergebnisausgabeeinheit 28a. Somit gibt die Abrufergebnisausgabeeinheit 28a die Wortkette des eingegebenen Abrufergebnisses als das Erkennungsergebnis aus. Die Verarbeitung entspricht soweit Schritt 6f. Übrigens wird im Beispiel von 18(b) „1 banchi“ aus den Wortketten der Adressdaten 27a ausgewählt und als das Erkennungsergebnis ausgegeben.
Wie oben beschrieben, gemäß der vorliegenden Ausführungsform 4, umfasst sie: die Akustikanalysatoreinheit 23 zum Ausführen einer Akustikanalyse des eingegebenen Sprachsignals und zum Umwandeln in die Zeitreihe von Akustikmerkmalen; die Adressdatenspeichereinheit 27 zum Speichern der Adressdaten, welche die Worte des Spracherkennungsziels sind; die Wortausschnittseinheit 31 zum Ausschneiden eines Wortes aus den in der Adressdatenspeichereinheit 27 gespeicherten Wörtern; die Auftrittsfrequenzberechnungseinheit 32 zum Berechnen der Auftrittsfrequenz des durch die Wortausschnittseinheit 31 ausgeschnittenen Worts; die Erkennungswörterbuch-Erzeugungseinheit 33 zum Erzeugen des Spracherkennungswörterbuchs der Wörter mit der Auftrittsfrequenz nicht kleiner als dem vorgegebenen Wert, welche Auftrittsfrequenz durch die Auftrittsfrequenzberechnungseinheit 32 berechnet wird; die Akustikdatenabgleichseinheit 24B zum Vergleichen der Zeitreihe von akustischen Merkmalen der durch die Akustikanalysatoreinheit 23 ermittelten eingegebenen Sprache mit dem durch die Erkennungswörterbuch-Erzeugungseinheit 33 erzeugten Spracherkennungswörterbuch und zum Auswählen, aus dem Spracherkennungswörterbuch, des Wort-Gitters mit der Wahrscheinlichkeit nicht kleiner als den vorgegebenen Wert als der eingegebenen Sprache; und die Abrufvorrichtung 40, die eine indizierte DB 43 beinhaltet, welche die in der Adressdatenspeichereinheit 27 gespeicherten Wörter aufzeichnet, indem sie sie mit ihrem Merkmalen in Bezug setzt, und die das Merkmal des durch die Akustikdatenabgleichseinheit 24B selektierten Wort-Gitters extrahiert, aus der indizierten DB 43 das Wort mit dem Merkmal, das übereinstimmt mit oder kürzest in der Distanz zum extrahierten Merkmal ist, abruft, und es als das Spracherkennungsergebnis ausgibt.
Mit der derart ausgelegten Konfiguration kann sie ein robustes System bereitstellen, das in der Lage ist, eine fehlerhafte Erkennung, die wahrscheinlich in der Spracherkennungsverarbeitung auftritt, wie etwa Einfügen eines fehlerhaften Wortes oder ein Weglassen eines richtigen Wortes, zu verhindern, wodurch sie in der Lage ist, die Zuverlässigkeit des Systems zusätzlich zu den Vorteilen der vorstehenden Ausführungsformen 1 und 2 zu verbessern.
Übrigens, obwohl die vorstehenden Ausführungsformen 4 eine Konfiguration zeigt, welche die Garbage-Modell-Speichereinheit 34 umfasst, und ein Garbage-Modell dem Wortnetzwerk des Spracherkennungswörterbuchs hinzufügt, ist auch eine Konfiguration möglich, die die Garbage-Modell-Speichereinheit 34 weglässt, wie in der vorstehenden Ausführungsform 1, und kein Garbage-Modell dem Wortnetzwerk des Spracherkennungswörterbuchs hinzufügt. Die Konfiguration hat ein Netzwerk ohne den Teil von „/Garbage/“ im, in 19 gezeigten Wortnetzwerk. In diesem Fall, obwohl eine akzeptable Äußerung auf Wörter im Spracherkennungswörterbuch beschränkt ist (d.h. Wörter mit einer hohen Auftrittsfrequenz) ist es nicht notwendig, das Spracherkennungswörterbuch zu allen die Adresse bezeichnenden Wörter zu erzeugen, wie in der vorstehenden Ausführungsform 1. Somit kann die vorliegende Ausführungsform 4 die Kapazität des Spracherkennungswörterbuchs reduzieren und als Ergebnis die Erkennungsverarbeitung beschleunigen.
AUSFÜHRUNGSFORM 5
20 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung einer Ausführungsform 5 gemäß der vorliegenden Erfindung zeigt. In 20 sind die, gleiche oder ähnliche Funktionen wie die in 1 und 15 gezeigten Komponenten ausführenden Komponenten durch dieselben Bezugszeichen bezeichnet und ihre redundante Beschreibung wird weggelassen.
Die Spracherkennungsvorrichtung 1D der Ausführungsform 5 umfasst das Mikrofon 21, die Spracherfassungseinheit 22, die Akustikanalysatoreinheit 23, eine Akustikdatenabgleichseinheit 24C, eine Spracherkennungswörterbuch-Speichereinheit 25B, eine Abrufvorrichtung 40A, die Adressdatenspeichereinheit 27, die Abrufergebnisausgabeeinheit 28a und eine Adressdatensilbentrennungseinheit 50.
Die Spracherkennungswörterbuch-Speichereinheit 25B ist ein Speicher zum Speichern des als ein Netzwerk von mit der Zeitreihe von Akustikmerkmalen der eingegebenen Sprache zu vergleichenden Silben ausgedrückten Spracherkennungswörterbuchs. Das Spracherkennungswörterbuch ist in solcher Weise konstruiert, dass es ein Erkennungswörterbuchnetzwerk zu allen Silben aufzeichnet, um die Erkennung aller Silben zu ermöglichen. Ein solches Wörterbuch ist bereits als eine Silbenschreibmaschine („syllable typewriter“) bekannt gewesen.
Die Adressdatensilbentrennungseinheit 50 ist eine Komponente zum Umwandeln der in der Adressdatenspeichereinheit 27 gespeicherte Adressdaten in eine Silbensequenz.
Die Abrufvorrichtung 40A ist eine Vorrichtung, die aus den in einer indizierten Datenbank aufgezeichneten Adressdaten die Adressdaten mit dem Merkmal abruft, das übereinstimmt mit oder distanzmäßig am kürzesten am Merkmal des Silben-Gitters ist, die eine Wahrscheinlichkeit nicht kleiner als ein vorgegebener Wert aufweist, als das durch die Akustikdatenabgleichseinheit 24C ermittelte Erkennungsergebnis, und an die Abrufergebnisausgabeeinheit 28a liefert. Sie umfasst eine Merkmalsvektorextraktionseinheit 41a, Niederdimensionalprojektionsverarbeitungseinheiten 42a und 45a, eine indizierten DB 43a, eine Gewissheitsvektor-Extraktionseinheit 44a und eine Abrufeinheit 46a. Die Abrufergebnisausgabeeinheit 28a ist eine Komponente zum Ausgeben des Abrufergebnisses der Abrufvorrichtung 40A.
Die Merkmalsvektorextraktionseinheit 41a ist eine Komponente zum Extrahieren eines Dokumentmerkmalsvektors der Silbensequenz der durch die Adressdatensilbentrennungseinheit 50 ermittelten Adressdaten. Hier bezieht sich der erwähnte Ausdruck „Dokumentmerkmalsvektor“ auf einen Merkmalsvektor, der als seine Elemente Gewichtungen entsprechend der Auftrittsfrequenz der Silben in den durch die Adressdatensilbentrennungseinheit 50 ermittelten Adressdaten aufweist. Übrigens sind ihre Details dieselben wie jene der vorstehenden Ausführungsform 4.
Die Niederdimensionalprojektionsverarbeitungseinheit 42a ist eine Komponente zum Projizieren des durch die Merkmalsvektorextraktionseinheit 41a extrahierten Dokumentmerkmalsvektors auf einen Niederdimensionaldokumentmerkmalsvektor.
Zusätzlich verwendet die Niederdimensionalprojektionsverarbeitungseinheiten 42a den Niederdimensionaldokumentmerkmalsvektor als einen Index, hängt den Index an den durch die Adressdatensilbentrennungseinheit 50 ermittelten Adressdaten und an ihre Silbensequenz an und zeichnet in der indizierten DB 43a auf.
Die Gewissheitsvektor-Extraktionseinheit 44a ist eine Komponente zum Extrahieren eines Gewissheitsvektors aus dem durch die Akustikdatenabgleichseinheit 24C ermittelten Silben-Gitter. Der Ausdruck „Gewissheitsvektor“, der hier erwähnt wird, bezieht sich auf einen Vektor, welcher die Wahrscheinlichkeit repräsentiert, dass eine Silbe tatsächlich im Sprachschritt in derselben Form wie der Dokumentmerkmalsvektor geäußert wird. Die Wahrscheinlichkeit, dass die Silbe geäußert wird, ist der Rang des Pfads, nach dem durch die Akustikdatenabgleichseinheit 24C gesucht wird, wie in der vorstehenden Ausführungsform 4.
Die Niederdimensionalprojektionsverarbeitungseinheit 45a ermittelt den Niederdimensionalgewissheitsvektor entsprechend dem Niederdimensionaldokumentmerkmalsvektor durch Durchführen derselben Projektionsverarbeitung wie derjenigen, die auf den Dokumentmerkmalsvektor an dem Gewissheitsvektor, der durch die Gewissheitsvektor-Extraktionseinheit 44 extrahiert ist, angewendet wird.
Die Abrufeinheit 46a ist eine Komponente zum Abrufen der Adressdaten mit dem Niederdimensionaldokumentmerkmalsvektor, der übereinstimmt mit oder distanzmäßig am kürzesten liegt an dem aus der indizierten DB 43a durch die Niederdimensionalprojektionsverarbeitungseinheit 45 ermittelten Niederdimensionalgewissheitsvektor.
21 ist ein Diagramm, das ein Beispiel des Spracherkennungswörterbuchs in der Ausführungsform 5 zeigt. Wie in 21 gezeigt, speichert die Spracherkennungswörterbuch-Speichereinheit 25B ein aus Silben bestehendes Silbennetzwerk. Somit weist die Ausführungsform 5 das nur aus Silben bestehende Spracherkennungswörterbuch auf und muss nicht das von den Adressdaten abhängige Spracherkennungswörterbuch erzeugen. Entsprechend ist die Notwendigkeit für die Wortausschnittseinheit 31, die Auftrittsfrequenzberechnungseinheit 32 und die Erkennungswörterbuch-Erzeugungseinheit 33, die in den vorstehenden Ausführungsformen 1 und 2 erforderlich sind, aufgehoben.
Als Nächstes wird der Betrieb erläutert.
Silbentrennung von Adressdaten
22 ist ein Flussdiagramm, das einen Ablauf der Erzeugungsverarbeitung der Silben-getrennten Adressdaten durch die Ausführungsform 5 und ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt, zeigt: 22(a) zeigt ein Flussdiagramm und 22(b) zeigt ein Datenbeispiel.
Zuerst startet die Adressdatensilbentrennungseinheit 50 das Einlesen von Adressdaten aus der Adressdatenspeichereinheit 27 (Schritt ST1g). Im in 22(b) gezeigten Beispiel werden die Adressdaten 27a ausgelesen und in die Adressdatensilbentrennungseinheit 50 aufgenommen.
Als Nächstes unterteilt die Adressdatensilbentrennungseinheit 50 die aus der Adressdatenspeichereinheit 27 aufgenommenen Adressdaten in Silben (Schritt ST2g). 22(b) zeigt die Silben-getrennten Adressdaten und die Originaladressdaten als ein Silbentrennungsergebnis 50a. Beispielsweise wird die Wortkette „1 banchi“ in eine Silbensequenz „/i/chi/ba/n/chi/“ umgewandelt.
Die durch die Adressdatensilbentrennungseinheit 50 Silben-getrennten Adressdaten werden an der Abrufvorrichtung 40A eingegeben (Schritt ST3g). In der Abrufvorrichtung 40A hängt gemäß dem durch die Merkmalsvektorextraktionseinheit 41a ermittelten Niederdimensionaldokumentmerkmalsvektor die Niederdimensionalprojektionsverarbeitungseinheiten 42a einen Index an die Adressdaten und ihre durch die Adressdatensilbentrennungseinheit 50 ermittelt Silbensequenz an, und zeichnet sie in der indizierten DB 43a auf.
Spracherkennungsverarbeitung
23 ist ein Flussdiagramm, das einen Ablauf der Spracherkennungsverarbeitung der Ausführungsform 5 zeigt und ist ein Diagramm, das ein in den individuellen Schritten gehandhabtes Datenbeispiel zeigt: 23(a) zeigt das Flussdiagramm und 23(b) zeigt das Datenbeispiel.
Zuerst spricht ein Anwender eine Adresse (Schritt ST1h). Im Beispiel von 23(b) sei angenommen, dass der Anwender „ichibanchi“ spricht. Die Sprache, die der Anwender äußert, wird mit dem Mikrofon 21 aufgenommen und wird durch die Spracherfassungseinheit 22 in ein Digitalsignal umgewandelt. Als Nächstes führt die Akustikanalysatoreinheit 23 eine Akustikanalyse des durch die Spracherfassungseinheit 22 in das Digitalsignal umgewandelten Sprachsignals durch und wandelt in eine Zeitreihe (Vektorspalte) von Akustikmerkmalen der eingegebenen Sprache um (Schritt ST2h). Im in 23(b) gezeigtem Beispiel nehme man an, dass /I, chi, i, ba, N, chi/, welches die fehlerhafte Erkennung enthält, als die Zeitreihe von Akustikmerkmalen der eingegebenen Sprache „ichibanchi“ ermittelt wird.
Danach vergleicht die Akustikdatenabgleichseinheit 24C die Akustikdaten der als ein Ergebnis der Akustikanalyse durch die Akustikanalysatoreinheit 23 ermittelten eingegebenen Sprache mit dem aus den Silben bestehenden Spracherkennungswörterbuch, das in der Spracherkennungswörterbuch-Speichereinheit 25 gespeichert ist, und sucht nach dem Pfad, der zu den Akustikdaten der eingegebenen Sprache mit einer Wahrscheinlichkeit nicht kleiner als der vorgegebene Wert passt, aus dem im Spracherkennungswörterbuch aufgezeichneten Silbennetzwerk (Schritt ST3h).
Im Beispiel von 23(b) wird ein Pfad, der zu „/I, chi, i, ba, N, chi/“, was Akustikdaten der eingegebenen Sprache sind, mit einer Wahrscheinlichkeit nicht kleiner als dem vorgegebenen Wert passt, aus dem Silbennetzwerk des in 21 gezeigten Spracherkennungswörterbuchs als ein Suchergebnis ausgewählt.
Danach extrahiert die Akustikdatenabgleichseinheit 24C das dem Pfad des Suchergebnisses entsprechende Silben-Gitter aus dem Spracherkennungswörterbuch und liefert sie an die Abrufvorrichtung 40A ((Schritt ST4h). In 23(b) wird die Wortkette „/i/chi/i/ba/n/chi/“, die eine fehlerhafte Erkennung enthält, an die Abrufvorrichtung 40A geliefert.
Wie unter Bezugnahme auf 22 beschrieben wurde, hängt die Abrufvorrichtung 40A den niederdimensionalen Merkmalsvektor der Silbensequenz an die Adressdaten und an ihre Silbensequenz als einen Index an und speichert das Ergebnis in der indizierten DB 43a.
Das Silben-Gitter der durch die Akustikdatenabgleichseinheit 24C ermittelten eingegebenen Sprache empfangend, extrahiert die Gewissheitsvektor-Extraktionseinheit 44A in der Abrufvorrichtung 40A den Gewissheitsvektor aus dem empfangenen Silben-Gitter. Nachfolgend ermittelt die Niederdimensionalprojektionsverarbeitungseinheit 45A den dem Niederdimensionaldokumentmerkmalsvektor entsprechenden Niederdimensionalgewissheitsvektor durch Durchführen derselben Projektionsverarbeitung wie derjenigen, die auf den Dokument-Merkmalsvektor am Gewissheitsvektor, der durch die Gewissheitsvektor-Extraktionseinheit 44a extrahiert ist, durchgeführt wird.
Nachfolgend ruft die Abrufeinheit 46a aus der indizierten DB 43a die Adressdaten und ihre Silbensequenz mit dem Niederdimensionaldokumentmerkmalsvektor ab, der übereinstimmt mit oder distanzmäßig am kürzesten ist an dem Niederdimensionalgewissheitsvektor der durch die Niederdimensionalprojektionsverarbeitungseinheit 45a ermittelten eingegebenen Sprache (Schritt ST5h).
Die Abrufeinheit 46a wählt aus den in der indizierten DB 43a aufgezeichneten Adressdaten die Adressdaten mit dem Niederdimensionaldokumentmerkmalsvektor aus, der übereinstimmt mit oder distanzmäßig am nächsten ist an dem Niederdimensionalgewissheitsvektor der eingegebenen Sprache, und liefert die Adressdaten an die Abrufergebnisausgabeeinheit 28a. Soweit entspricht die Bearbeitung dem Schritt ST6h. Im Beispiel von 23(b) wird „ichibanchi (1 banchi)“ ausgewählt und wird als das Erkennungsergebnis ausgegeben.
Wie oben beschrieben, gemäß der vorliegenden Ausführungsform 5, umfasst sie: die Akustikanalysatoreinheit 23 zum Ausführen akustischer Analyse des eingegebenen Sprachsignals und zum Umwandeln der Zeitreihe von akustischen Merkmalen; die Adressdatenspeichereinheit 27 zum Speichern der Adressdaten, welche die Worte des Spracherkennungsziels sind; die Adressdatensilbentrennungseinheit 50 zum Umwandeln der in der Adressdatenspeichereinheit 27 gespeicherten Wörter in die Silbensequenz; die Spracherkennungswörterbuch-Speichereinheit 25B zum Speichern des aus Silben bestehenden Spracherkennungswörterbuchs; die Akustikdatenabgleichseinheit 24C zum Vergleichen der Zeitreihe akustischer Merkmale der durch die Akustikanalysatoreinheit 23 ermittelten eingegebenen Sprache mit dem aus der Spracherkennungswörterbuch-Speichereinheit 25B ausgelesenen Spracherkennungswörterbuch, und wählt das Silben-Gitter mit einer Wahrscheinlichkeit nicht kleiner als der vorgegebene Wert, als die eingegebene Sprache aus dem Spracherkennungswörterbuch aus; die Abrufvorrichtung 40A, welche die indizierte DB 43a umfasst, welche die Adressdaten aufzeichnet, die als den Index den niederdimensionalen Merkmalsvektor der Silbensequenz der die Umwandlung durch die Adressdatensilbentrennungseinheit 50 passierenden Adressdaten verwendet, und das Merkmal des durch die Akustikdatenabgleichseinheit 24C ausgewählten Silben-Gitters extrahiert und aus der indizierten DB 43a das Wort (Adressdaten) mit einem Merkmal abruft, das mit dem extrahierten Merkmal übereinstimmt; und eine Vergleichsausgabeeinheit 51 zum Vergleichen der Silbensequenz des durch die Abrufvorrichtung 40A abgerufenen Worts mit den in der Adressdatenspeichereinheit 27 gespeicherten Wörtern, und zum Ausgeben des Worts entsprechend dem durch die Abrufvorrichtung 40A abgerufenen Wort als das Spracherkennungsergebnis aus den in der Adressdatenspeichereinheit 27 gespeicherten Wörtern.
Mit der so angeordneten Konfiguration, da die vorliegende Ausführungsform 5 die Spracherkennungsverarbeitung auf einer Silbe-für-Silbe-Basis durchführen kann, bietet sie zusätzlich zu den Vorteilen der vorstehenden Ausführungsform 1 und 2 einen Vorteil, in der Lage zu sein, die Notwendigkeit zum Vorbereiten des Spracherkennungswörterbuchs abhängig von den Adressdaten vorab zu vermeiden. Außerdem kann sie ein robustes System bereitstellen, das in der Lage ist, eine fehlerhafte Erkennung zu verhindern, die wahrscheinlich in der Spracherkennungsverarbeitung auftritt, wie etwa eine Einfügung einer fehlerhaften Silbe oder eine Weglassung einer korrekten Silbe, wodurch sie in der Lage ist, die Zuverlässigkeit des Systems zu verbessern.
Zusätzlich, obwohl die vorstehende Ausführungsform 5 den Fall zeigt, der das Spracherkennungswörterbuch aus einem Silbennetzwerk erzeugt, ist auch eine Konfiguration möglich, welche die Erkennungswörterbuch-Erzeugungseinheit 33 und die Garbage-Modell-Speichereinheit 34 wie in der vorstehenden Ausführungsform 2 umfasst, und der Erkennungswörterbuch-Erzeugungseinheit 33 gestattet, dem Netzwerk ein Garbage-Modell, basierend auf Silben, hinzuzufügen. In diesem Fall ist es nicht unwahrscheinlich, dass ein zu erkennendes Wort fehlerhaft als ein Garbage erkannt werden kann. Die Ausführungsform 5 jedoch hat den Vorteil, in der Lage zu sein, mit einem Wort umzugehen, das nicht aufgezeichnet ist, während die Kapazität des Spracherkennungswörterbuchs im Zaum gehalten wird.
Weiterhin kann ein Navigationssystem, das eine der Spracherkennungsvorrichtungen der vorstehenden Ausführungsform 1 mit Ausführungsform 5 inkorporiert, die Kapazität des Spracherkennungswörterbuchs reduzieren und die Erkennungsverarbeitung in Verbindung damit beschleunigen, wenn ein Ziel oder Startpunkt unter Verwendung der Spracherkennung in der Navigationsverarbeitung eingegeben wird.
Obwohl die vorstehenden Ausführungsformen 1 bis 5 einen Fall zeigen, bei dem das Ziel der Spracherkennung eine Adresse ist, ist die vorliegende Erfindung nicht darauf limitiert. Beispielsweise ist sie auch auf Wörter anwendbar, die ein Erkennungsziel in verschiedenen Spracherkennungssituationen sind, wie etwa irgendwelche anderen Einstellungen in der Navigationsverarbeitung, eine Einstellung eines Musikstücks, oder Wiedergabesteuerung bei Audioausrüstung.
Übrigens versteht es sich, dass eine freie Kombination der einzelnen Ausführungsformen oder Variationen oder Weglassen jeglicher Komponenten der einzelnen Ausführungsformen innerhalb des Schutzumfangs der vorliegenden Erfindung möglich sind.
INDUSTRIELLE ANWENDBARKEIT
Eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung kann die Kapazität des Spracherkennungswörterbuchs reduzieren und die Erkennungsverarbeitung beschleunigen. Entsprechend ist sie als eine Spracherkennungsvorrichtung eines Bordnavigationssystems geeignet, die rasche Erkennungsverarbeitung erfordert.
Bezugszeichenliste
1, 1A, 1B, 1C, 1D Spracherkennungsvorrichtung; 2 Spracherkennungsverarbeitungseinheit; 3, 3A Spracherkennungswörterbuch-Erzeugungseinheit; 21 Mikrofon, 22 Spracherfassungseinheit, 23 Akustikanalysatoreinheit, 24, 24A, 24B, 24C Akustikdatenabgleichseinheit; 25, 25A, 25B Spracherkennungswörterbuch-Speichereinheit; 26, 26A Adressdatenvergleichseinheit; 27 Adressdatenspeichereinheit; 27a Adressdaten; 28, 28a Abrufergebnisausgabeeinheit; 31 Wortausschnittseinheit; 31a, 32a Wortlistendaten; 32 Auftrittsfrequenzberechnungseinheit; 33, 33A Erkennungswörterbuch-Erzeugungseinheit; 34 Garbage-Modell-Speichereinheit; 40, 40A Abrufvorrichtung; 41, 41a Merkmalsvektorextraktionseinheit; 42, 45, 42a, 45a Niederdimensionalprojektionsverarbeitungseinheit; 43, 43a Indizierte Datenbank (indizierte DB); 44, 44a Gewissheitsvektor-Extraktionseinheit; 46, 46a Abrufeinheit; 50 Adressdatensilbentrennungseinheit; 50a Ergebnis der Silbentrennung.

Claims

Spracherkennungsvorrichtung, umfassend: eine Akustik-Analysatoreinheit (23) zum Ausführen einer Akustik-Analyse des eingegebenen Sprachsignals zum Umwandeln des eingegebenen Sprachsignals in eine Zeitreihe akustischer Merkmale; eine Vokabularspeichereinheit (27) zum Aufzeichnen von Wörtern, die ein Spracherkennungsziel sind; eine Wörterbuchspeichereinheit (25A) zum Speichern eines ausschließlich Zahlen enthaltenden Spracherkennungswörterbuchs; eine Akustikdatenabgleicheinheit (24A) zum Vergleichen der Zeitreihe akustischer Merkmale der eingegebenen Sprache mit dem Spracherkennungswörterbuch, und zum Auswählen einer wahrscheinlichsten Zahl als der eingegebenen Sprache aus dem Spracherkennungswörterbuch; und eine Abgleicheinheit (26A) zum Ausführen einer Abgleichung zwischen der ausgewählten Zahl und den in der Vokabularspeichereinheit (27) gespeicherten Wörtern, und zum Auswählen, als ein Spracherkennungsergebnis, eines die ausgewählte Zahl enthaltenden Wortes, aus den in der Vokabularspeichereinheit (27) gespeicherten Wörtern.
Spracherkennungsvorrichtung gemäß Anspruch 1, weiter umfassend: eine Garbage-Modell-Speichereinheit (34) zum Speichern eines Garbage-Modells; und eine Erkennungswörterbuch-Erzeugungseinheit (33) zum Hinzufügen des aus der Garbage-Modell-Speichereinheit (34) ausgelesenen Garbage-Modells zu dem Wörternetzwerk des Spracherkennungswörterbuchs, wobei die Abgleichseinheit (26A) das Garbage-Modell von der durch die Akustikdatenabgleicheinheit (24A) ausgewählten Zahl entfernt, einen Abgleich zwischen der Zahl und den in der Vokabularspeichereinheit (27) gespeicherten Wörtern, ausführt, und als das Spracherkennungsergebnis ein die Zahl enthaltendes Wort aus den in der Vokabularspeichereinheit (27) gespeicherten Wörtern, auswählt.
Spracherkennungsvorrichtung, umfassend: eine Akustik-Analysatoreinheit (23) zum Ausführen einer Akustikanalyse eines eingegebenen Sprachsignals, um das eingegebene Sprachsignal in eine Zeitreihe akustischer Merkmale umzuwandeln; eine Vokabularspeichereinheit (27) zum Aufzeichnen von Wörtern, die ein Spracherkennungsziel sind; eine Wortausschneideinheit (31) zum Ausschneiden eines Wortes aus den in der Vokabularspeichereinheit (27) gespeicherten Wörtern; eine Auftrittsfrequenz-Berechnungseinheit (32) zum Berechnen einer Auftrittsfrequenz des durch die Wortausschneideinheit (31) ausgeschnittenen Worts; eine Erkennungswörterbuch-Erzeugungseinheit (33) zum Erzeugen eines Spracherkennungswörterbuchs von Wörtern mit der Auftrittsfrequenz nicht kleiner einem vorgegebenen Wert, wobei die Auftrittsfrequenz durch die Auftrittsfrequenz-Berechnungseinheit berechnet wird; eine Akustikdaten-Abgleichseinheit (24B) zum Vergleichen der Zeitreihe akustischer Merkmale der eingegebenen Sprache mit dem Spracherkennungswörterbuch und zum Auswählen eines Wort-Gitters, das aus einem oder mehreren in fester Reihenfolge verbundenen Wörtern besteht, aus dem Spracherkennungswörterbuch, mit einer Wahrscheinlichkeit nicht kleiner als einem vorgegebenen Wert, als der eingegebenen Sprache; und eine Abrufvorrichtung (40), die eine Datenbank (43) enthält, welche die in der Vokabularspeichereinheit gespeicherten Wörter in Verbindung mit Merkmalen der Wörter aufzeichnet und die ein Merkmal des ausgewählten Wort-Gitters extrahiert, die Datenbank (43) nach einem Wort mit einem Merkmal durchsucht, das übereinstimmt mit oder distanzmäßig am kürzesten liegt an dem Merkmal des Wort-Gitters, und das Wort als ein Spracherkennungsergebnis ausgibt; und eine Garbage-Modell-Speichereinheit (34) zum Speichern eines Garbage-Modells, wobei die Erkennungswörterbuch-Erzeugungseinheit (33) das Spracherkennungswörterbuch durch Hinzufügen eines aus der Garbage-Modell-Speichereinheit ausgelesenen Garbage-Modells zu einem aus Wörtern mit der Auftrittsfrequenz nicht kleiner als einem vorgegebenen Wert bestehenden Wortnetzwerk erzeugt, wobei die Auftrittsfrequenz durch die Auftrittsfrequenz-Berechnungseinheit berechnet ist; und die Abrufvorrichtung (40) ein Merkmal durch Entfernen des Garbage-Modells aus dem Wort-Gitter extrahiert, das durch die Akustikdaten-Abgleichseinheit ausgewählt ist, und als ein Spracherkennungsergebnis ein Wort mit einem Merkmal ausgibt, das übereinstimmt mit oder distanzmäßig am kürzesten liegt an dem Merkmal des Wort-Gitters, aus dem das Garbage-Modell entfernt ist, aus den in der Datenbank aufgezeichneten Wörtern.
Spracherkennungsvorrichtung, umfassend: eine Akustik-Analysatoreinheit (23) zum Ausführen einer Akustikanalyse eines eingegebenen Sprachsignals, um das eingegebene Sprachsignal in eine Zeitreihe akustischer Merkmale umzuwandeln; eine Vokabularspeichereinheit (27) zum Aufzeichnen von Wörtern, die ein Spracherkennungsziel sind; eine Silbentrennungseinheit (50) zum Umwandeln der in der Vokabularspeichereinheit (27) gespeicherten Wörter in eine Silbensequenz; eine Wörterbuch-Speicheinheit (25B) zum Speichern eines aus Silben bestehenden Spracherkennungswörterbuchs; eine Akustikdaten-Abgleichseinheit (24C) zum Vergleichen der Zeitreihe akustischer Merkmale der eingegebenen Sprache mit dem Spracherkennungswörterbuch und zum Auswählen, aus dem Spracherkennungswörterbuch, eines Silben-Gitters mit einer Wahrscheinlichkeit nicht kleiner als einem vorgegebenen Wert, als die eingegebene Sprache; und eine Abrufvorrichtung (40A), die eine Datenbank (43a) enthält, welche die in der Vokabularspeichereinheit (27) gespeicherten Wörter aufzeichnet und die ein Merkmal der umgewandelten Silbensequenz als Index verwendet, die indizierte Datenbank (43a) nach einem Wort mit einem als Index gespeicherten Merkmal durchsucht, das übereinstimmt mit oder distanzmäßig am nächsten liegt an einem entsprechenden Merkmal des Silben-Gitters, und das Wort als ein Spracherkennungsergebnis ausgibt.
Spracherkennungsvorrichtung gemäß Anspruch 4, weiter umfassend: eine Garbage-Modell-Speichereinheit (34) zum Speichern eines Garbage-Modells; und eine Erkennungswörterbuch-Erzeugungseinheit zum Hinzufügen des aus der Garbage-Modell-Speichereinheit (34) ausgelesenen Garbage-Modells zu dem gespeicherten Spracherkennungswörterbuch, wobei die Abrufvorrichtung (40A) ein Merkmal durch Entfernen des Garbage-Modells aus dem durch die Akustikdaten-Abgleichseinheit (24C) ausgewählten Wort-Gitter extrahiert und als ein Spracherkennungsergebnis ein Wort mit einem Merkmal ausgibt, welches übereinstimmt mit, oder distanzmäßig am nächsten ist zum Merkmal des Silben-Gitters, aus welchem das Garbage-Modell entfernt ist, aus den in der Datenbank aufgezeichneten Wörtern.
Navigationssystem, umfassend die Spracherkennungsvorrichtung gemäß einem der Ansprüche 1 bis 5.