DE112011105407T5

DE112011105407T5 - Spracherkennungsvorrichtung und Navigationsvorrichtung

Info

Publication number: DE112011105407T5
Application number: DE112011105407.6T
Authority: DE
Inventors: Jun Ishii; Michihiro Yamazaki
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2011-07-05
Filing date: 2011-07-05
Publication date: 2014-04-30
Also published as: CN103650034A; WO2013005248A1; US20140100847A1

Abstract

Offenbart wird eine Spracherkennungsvorrichtung mit: einer Soundakquiriereinheit (1) zum Ausführen einer digitalen Umwandlung eines eingegebenen Sounds und zum Akquirieren von Sounddaten; einer Sounddaten-Speichereinheit (2) zum Speichern der Sounddaten, die die Soundakquiriereinheit (1) akquiriert; ersten bis M-ten Spracherkennungsteilen, jeweils zum Erfassen eines Sprachintervalls aus den in der Sounddaten-Speichereinheit (2) gespeicherten Sounddaten, um eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und jeweils zum Ausführen eines Erkennungsprozesses auf der Grundlage der dadurch extrahierten Eigenschaftsgröße, während eines Referenzierens eines Erkennungslexikons; einer Spracherkennungs-Umschalteinheit (4) zum Umschalten zwischen den ersten bis M-ten Spracherkennungsteilen; einer Erkennungssteuereinheit (5) zum Steuern des Umschaltens zwischen den Spracherkennungsteilen durch die Spracherkennungs-Umschalteinheit (4), um durch einen ausgewählten Spracherkennungsteil akquirierte Erkennungsergebnisse zu akquirieren; und einer Erkennungsergebnis-Auswähleinheit (6) zum Auswählen eines einem Benutzer zu präsentierenden Erkennungsergebnisses aus den Erkennungsergebnissen, die durch die Erkennungssteuereinheit (5) akquiriert worden sind.

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft eine Spracherkennungsvorrichtung und eine mit dieser Spracherkennungsvorrichtung ausgerüstete Navigationsvorrichtung.
HINTERGRUND DER ERFINDUNG
Eine aktuell verwendete Fahrzeugnavigationsvorrichtung hat typischerweise eine Spracheingabeschnittstelle und eine Funktion zum Ausführen einer Spracherkennung hinsichtlich einer Adresse oder eines Einrichtungsnamens, die/der durch einen Benutzer geäußert wurde. Jedoch gibt es einen Fall, in dem es schwierig ist, ein großformatiges Vokabular, so wie Adressen und Einrichtungsnamen, als zu einer Zeit zu erkennende Objekte festzulegen, aufgrund von Einschränkungen, die dem Arbeitsspeicher und der Berechnungsleistung von Hardware auferlegt sind, die als eine Fahrzeugnavigationsvorrichtung installiert ist, und eines Problems mit der Erkennungsrate.
Um dieses Problem zu lösen, offenbart Patentreferenz 1 eine Spracherkennungsvorrichtung, die ein Ziel für eine Spracherkennung in Teile aufteilt und einen Erkennungsprozess in mehrfache Schritte aufteilt, um die Schritte jeweils auf den Teilen auszuführen. Diese Vorrichtung teilt das Ziel für eine Spracherkennung in Teile auf und führt wiederum eine Spracherkennung auf den Teilen aus, und, wenn die Erkennungsbewertung (Wahrscheinlichkeit) eines Erkennungsergebnisses gleich oder höher als eine Schwelle ist, bestimmt das Erkennungsergebnis und beendet die Verarbeitung. Wenn es kein Erkennungsergebnis gibt, dessen Erkennungsbewertung gleich oder höher als die oben erwähnte Schwelle ist, bestimmt im Gegensatz dazu die Vorrichtung ein Erkennungsergebnis mit der höchsten Erkennungsbewertung unter den Erkennungsergebnissen, die die Vorrichtung akquiriert hat, als ein endgültiges Erkennungsergebnis. Durch derartiges Aufteilen des Ziels für eine Spracherkennung in Teile kann die Vorrichtung eine Reduzierung der Erkennungsrate verhindern. Weil die Vorrichtung die Verarbeitung beendet, wenn die Erkennungsbewertung eines Erkennungsergebnisses gleich oder höher als die Schwelle wird, kann die Vorrichtung ferner die zum Ausführen der Erkennungsverarbeitung erforderliche Zeit verkürzen.
Dokument des verwandten Fachgebiets
Patentreferenz

Patentreferenz 1: Veröffentlichung der ungeprüften japanischen Patentanmeldung Nr. 2009-230068

ZUSAMMENFASSUNG DER ERFINDUNG
DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
In einer durch Patentreferenz 1 dargestellten konventionellen Technologie kann beispielsweise, wenn eine Erkennung auf einem Ziel durch sequenzielles Durchführen unterschiedlicher Spracherkennungsprozesse ausgeführt wird, so wie ein syntaxbasierter und ein diktatbasierter, ein einfacher Vergleich zwischen den Erkennungsbewertungen (Wahrscheinlichkeit) der Erkennungsergebnisse nicht gemacht werden. Deshalb ist es ein Problem, dass, wenn es kein Erkennungsergebnis gibt, dessen Erkennungsbewertung gleich oder höher als die oben erwähnte Schwelle ist, ein Erkennungsergebnis mit der höchsten Erkennungsbewertung unter den Erkennungsergebnissen, die akquiriert worden sind, nicht ausgewählt werden kann, und somit kein Erkennungsergebnis dem Benutzer präsentiert werden kann.
Die vorliegende Erfindung wurde gemacht, um die oben erwähnten Probleme zu lösen, und es ist deshalb eine Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung, die durch unterschiedliche Spracherkennungsprozesse akquirierte Erkennungsergebnisse exakt präsentieren kann und eine Reduzierung der zum Ausführen der Erkennungsverarbeitung erforderlichen Zeit erreichen kann, und eine mit dieser Spracherkennungsvorrichtung ausgestattete Navigationsvorrichtung bereitzustellen.
MITTEL ZUM LÖSEN DES PROBLEMS
Gemäß der vorliegenden Erfindung wird eine Spracherkennungsvorrichtung bereitgestellt mit: einer Akquiriereinheit, die eine digitale Umwandlung eines eingegebenen Sounds ausführt, um Sounddaten zu akquirieren; einem Sounddatenspeicher, der die Sounddaten speichert, die die Akquiriereinheit akquiriert; einer Vielzahl von Spracherkennern, von denen jeder ein Sprachintervall aus den in dem Sounddatenspeicher gespeicherten Sounddaten erfasst, um eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und von denen jeder einen Erkennungsprozess auf einer Grundlage der dadurch extrahierten Eigenschaftsgröße während eines Referenzierens eines Erkennungslexikons ausführt; einem Schalter, der zwischen der Vielzahl von Spracherkennern umschaltet; einer Steuereinrichtung, die das Umschalten zwischen den Spracherkennern durch den Schalter steuert, um durch einen ausgewählten Spracherkenner akquirierte Erkennungsergebnisse zu akquirieren; und einem Selektor, der ein einem Benutzer zu präsentierendes Erkennungsergebnis aus den durch die Steuereinrichtung akquirierten Erkennungsergebnissen auswählt.
VORTEILE DER ERFINDUNG
Gemäß der vorliegenden Erfindung wird ein Vorteil bereitgestellt, dass sie fähig ist zum exakten Präsentieren von durch verschiedene Spracherkennungsprozesse akquirierten Erkennungsergebnissen und eine Reduzierung der zum Ausführen der Erkennungsverarbeitung erforderlichen Zeit erreichen kann.
KURZE BESCHREIBUNG DER FIGUREN
1 ist ein Blockdiagramm, das die Struktur einer Navigationsvorrichtung zeigt, die mit einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung ausgerüstet ist.
2 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1 ausgeführt wird.
3 ist ein Diagramm, das ein Beispiel einer Anzeige eines Erkennungsergebnisses mit einer erstplatzierten Erkennungsbewertung und eines Erkennungsergebnisses mit einer zweitplatzierten Erkennungsbewertung zeigt, die durch jede der Spracherkennungseinheiten akquiriert worden sind.
4 ist ein Diagramm, das ein Beispiel einer Anzeige von Erkennungsergebnissen zeigt, die durch Verwendung eines unterschiedlichen Verfahrens für jede Spracherkennungseinheit ausgewählt werden.
5 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt.
6 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 3 der vorliegenden Erfindung zeigt.
7 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 3 ausgeführt wird.
8 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung zeigt.
9 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 4 ausgeführt wird.
10 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 5 der vorliegenden Erfindung zeigt.
11 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 5 ausgeführt wird.
AUSFÜHRUNGSFORMEN DER ERFINDUNG
Um diese Erfindung in größerem Detail zu erläutern, werden hier im Nachfolgenden die bevorzugten Ausführungsformen der vorliegenden Erfindung mit Verweis auf die begleitenden Zeichnungen beschrieben werden.
Ausführungsform 1
1 ist ein Blockdiagramm, das die Struktur einer Navigationsvorrichtung zeigt, die mit einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung ausgerüstet ist. Die in 1 gezeigte Navigationsvorrichtung gemäß Ausführungsform 1 ist ein Beispiel einer Anwendung der Spracherkennungsvorrichtung gemäß Ausführungsform 1 auf eine fahrzeugmontierte Navigationsvorrichtung, die in einem Fahrzeug montiert ist, das ein sich bewegendes Objekt ist. Die Navigationsvorrichtung ist versehen mit einer Soundakquiriereinheit 1, einer Sounddaten-Speichereinheit 2, einer Spracherkennungseinheit 3, einer Spracherkennungs-Umschalteinheit 4, einer Erkennungssteuereinheit 5, einer Erkennungsergebnis-Auswähleinheit 6 und einer Erkennungsergebnis-Speichereinheit 7 als Komponenten der Spracherkennungsvorrichtung und ist versehen mit einer Anzeigeeinheit 8, einer Navigationsverarbeitungseinheit 9, einer Positionserfassungseinheit 10, einer Kartendatenbank (DB) 11 und einer Eingabeeinheit 12 als zum Ausführen einer Navigation verwendete Komponenten.
Die Soundakquiriereinheit 1 führt eine Analog-zu-Digital-Umwandlung auf einem Sound aus, der innerhalb eines vorbestimmten Zeitintervalls empfangen worden ist, der dorthin via ein Mikrofon oder dergleichen eingegeben wird, um Sounddaten in einer gewissen Form zu akquirieren, zum Beispiel eine PCM-(Pulse Code Modulation)Form. Die Sounddaten-Speichereinheit 2 speichert die durch die Soundakquiriereinheit 1 akquirierten Sounddaten. Die Spracherkennungseinheit 3 besteht aus einer Vielzahl von Spracherkennungsteilen (von hier an als erste bis M-te Spracherkennungsteile bezeichnet), jeweils zum Ausführen eines unterschiedlichen Spracherkennungsprozesses, so wie ein syntaxbasierter oder ein diktatbasierter. Jeder der ersten bis M-ten Spracherkennungsteile erfasst ein Sprachintervall, das einer Beschreibung einer Benutzeräußerung entspricht, aus den Sounddaten, die die Soundakquiriereinheit 1 akquiriert hat, gemäß einem Spracherkennungsalgorithmus davon, extrahiert eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der dadurch extrahierten Eigenschaftsgröße aus, während eines Referenzierens eines Erkennungslexikons.
Die Spracherkennungs-Umschalteinheit 4 schaltet zwischen den ersten bis M-ten Spracherkennungsteilen gemäß einem Umschaltsteuersignal von der Erkennungssteuereinheit 5 um. Die Erkennungssteuereinheit 5 steuert das Umschalten zwischen den Spracherkennungsteilen durch die Spracherkennungs-Umschalteinheit 4 und akquiriert Erkennungsergebnisse, die durch jeden dadurch ausgewählten Spracherkennungsteil akquiriert worden sind. Die Erkennungsergebnis-Auswähleinheit 6 wählt ein auszugebendes Erkennungsergebnis aus den Erkennungsergebnissen aus, die die Erkennungssteuereinheit 5 akquiriert hat. Die Erkennungsergebnis-Speichereinheit 7 speichert das durch die Erkennungsergebnis-Auswähleinheit 6 ausgewählte Erkennungsergebnis.
Die Anzeigeeinheit 8 zeigt das in der Erkennungsergebnis-Speichereinheit 7 gespeicherte Erkennungsergebnis oder ein durch die Navigationsverarbeitungseinheit 9 akquiriertes verarbeitetes Ergebnis an. Die Navigationsverarbeitungseinheit 9 ist eine funktionale Komponente zum Ausführen von Navigationsprozessen, so wie eine Routenbestimmung, Routenführung und eine Kartenanzeige. Zum Beispiel bestimmt die Navigationsverarbeitungseinheit 9 eine Route von einer aktuellen Fahrzeugposition zu einem Bestimmungsort durch Verwenden der aktuellen Position eines Fahrzeugs, wo sie die Positionserfassungseinheit 10 akquiriert hat, des dorthin via die Spracherkennungsvorrichtung gemäß Ausführungsform 1 oder die Eingabeeinheit eingegebenen Bestimmungsortes, und von Kartendaten, die die Kartendatenbank (DB) 11 speichert. Die Navigationsverarbeitungseinheit 9 führt dann eine Routenführung der durch die Routenbestimmung akquirierten Route aus. Die Navigationsverarbeitungseinheit 9 zeigt auch eine Karte eines Gebietes einschließlich der Fahrzeugposition auf der Anzeigeeinheit 8 durch Verwenden der aktuellen Position des Fahrzeugs und von Kartendaten an, die die Karten-DB 11 speichert.
Die Positionserfassungseinheit 10 ist eine funktionale Komponente zum Akquirieren der Positionsinformation über die Position des Fahrzeugs (Länge und Breite) von dem Ergebnis einer Analyse von GPS-(Global Positioning System)Funkwellen oder dergleichen. Ferner ist die Karten-DB 11 diejenige, in der die durch die Navigationsverarbeitungseinheit 9 verwendeten Kartendaten registriert sind. Topographische Kartendaten, Wohngebietkartendaten, Straßennetze sind in den Kartendaten enthalten. Die Eingabeeinheit 12 ist eine funktionale Komponente zum Annehmen einer Eingabe, die eine Konfiguration eines Bestimmungsortes durch den Benutzer oder vielfältige Operationen zeigt. Beispielsweise wird die Eingabeeinheit durch ein Touch-Panel realisiert, das auf dem Schirm der Anzeigeeinheit 8 montiert ist, oder dergleichen.
Als Nächstes wird die Operation der Navigationsvorrichtung erläutert werden. 2 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1 ausgeführt wird. Zuerst führt die Soundakquiriereinheit 1 eine A/D-Umwandlung auf einem Sound durch, der innerhalb eines vorbestimmten Zeitintervalls empfangen worden ist, der dorthin via das Mikrofon oder dergleichen eingegeben wird, um Sounddaten in einer gewissen Form, zum Beispiel eine PCM-Form, zu akquirieren (Schritt ST10). Die Sounddaten-Speichereinheit 2 speichert die durch die Soundakquiriereinheit 1 akquirierten Sounddaten (Schritt ST20).
Die Erkennungssteuereinheit 5 initialisiert dann eine Variable N auf 1 (Schritt ST30). Die Variable N kann einen sich von 1 bis M erstreckenden Wert haben. Die Erkennungssteuereinheit 5 gibt dann ein Umschaltsteuersignal zum Umschalten der Spracherkennungseinheit 3 zu dem N-ten Spracherkennungsteil an die Spracherkennungs-Umschalteinheit 4 aus. Die Spracherkennungs-Umschalteinheit 4 schaltet die Spracherkennungseinheit 3 zu dem N-ten Spracherkennungsteil gemäß dem Umschaltsteuersignal von der Erkennungssteuereinheit 5 um (Schritt ST40).
Der N-te Spracherkennungsteil erfasst ein Sprachintervall entsprechend einer Benutzeräußerung aus den in der Sounddaten-Speichereinheit 2 gespeicherten Sounddaten, extrahiert eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der Eigenschaftsgröße durch, während eines Referenzierens des Erkennungslexikons (Schritt ST50). Die Erkennungssteuereinheit 5 akquiriert die Erkennungsergebnisse von dem N-ten Spracherkennungsteil und vergleicht eine erstplatzierte Erkennungsbewertung (Wahrscheinlichkeit) in den Erkennungsbewertungen der Erkennungsergebnisse mit einer vorbestimmten Schwelle, um zu bestimmen, ob oder ob nicht die erstplatzierte Erkennungsbewertung gleich oder höher als die Schwelle ist (Schritt ST60). Die oben erwähnte vorbestimmte Schwelle wird verwendet, um zu bestimmen, ob oder ob nicht zu einer anderen Spracherkennungseinheit umgeschaltet wird und die Erkennungsverarbeitung fortgesetzt wird, und ist/wird für jeden der ersten bis M-ten Spracherkennungsteile gesetzt.
Wenn die erstplatzierte Erkennungsbewertung gleich oder höher als die oben erwähnte Schwelle ist (wenn JA in Schritt ST60), wählt die Erkennungsergebnis-Auswähleinheit 6 ein auszugebendes Erkennungsergebnis aus den Erkennungsergebnisses aus, die durch den N-ten Spracherkennungsteil akquiriert worden sind, das/die die Erkennungssteuereinheit 5 durch Verwendung eines Verfahrens akquiriert, das unten erläutert werden wird (Schritt ST70). Danach zeigt die Anzeigeeinheit 8 das Erkennungsergebnis an, das durch die Erkennungsergebnis-Auswähleinheit 6 ausgewählt wird und das in der Erkennungsergebnis-Speichereinheit 7 gespeichert wird (Schritt ST80). Wenn im Gegensatz dazu die erstplatzierte Erkennungsbewertung niedriger als die oben erwähnte Schwelle ist (wenn NEIN im Schritt ST60), wählt die Erkennungsergebnis-Auswähleinheit 6 ein auszugebendes Erkennungsergebnis aus den Erkennungsergebnissen aus, die durch den N-ten Spracherkennungsteil akquiriert worden sind, das/die die Erkennungssteuereinheit 5 akquiriert durch Verwendung eines Verfahrens, das unten erläutert werden wird (Schritt ST90).
Die Erkennungsergebnis-Auswähleinheit 6 speichert dann das ausgewählte Erkennungsergebnis in der Erkennungsergebnis-Speichereinheit 7 (Schritt ST100). Wenn die Erkennungsergebnis-Auswähleinheit 6 das Erkennungsergebnis in der Erkennungsergebnis-Speichereinheit 7 speichert, inkrementiert die Erkennungssteuereinheit 5 die Variable N um 1 (Schritt ST110) und bestimmt, ob der Wert der Variable N die Gesamtanzahl M der Spracherkennungsteile überschreitet (Schritt ST120).
Wenn der Wert der Variable N die Gesamtanzahl M der Spracherkennungsteile überschreitet (wenn JA in Schritt ST120), gibt die Anzeigeeinheit 8 die Erkennungsergebnisse aus, die durch die ersten bis M-ten Spracherkennungsteile akquiriert worden sind, die in der Erkennungsergebnis-Speichereinheit 7 gespeichert sind (Schritt ST130). Die Anzeigeeinheit 8 kann die Erkennungsergebnisse in der Reihenfolge ausgeben, in der die Erkennungsergebnisse durch die Vielzahl von Spracherkennungsteilen akquiriert worden sind. Wenn der Wert der Variable N gleich oder kleiner als die Gesamtanzahl M der Spracherkennungsteile ist (wenn NEIN im Schritt ST120), kehrt die Spracherkennungsvorrichtung zu dem Prozess von Schritt ST40 zurück. Als ein Ergebnis wiederholt die Spracherkennungsvorrichtung die oben erwähnten Prozesse durch Verwendung des Spracherkennungsteils, zu dem die Spracherkennungs-Umschalteinheit die Spracherkennungseinheit umschaltet.
Hier werden im Nachfolgenden Schritte ST70 und ST90 durch Angabe eines konkreten Beispiels erläutert werden. Die Erkennungsergebnis-Auswähleinheit 6 wählt ein Erkennungsergebnis mit einer höheren Bewertung aus den Erkennungsergebnissen aus, die die Erkennungssteuereinheit 5 akquiriert. Zum Beispiel kann das Auswahlverfahren eines zum Auswählen eines Erkennungsergebnisses mit einer erstplatzierten Erkennungsbewertung sein, wie oben erwähnt. Als eine Alternative kann das Auswahlverfahren eines zum Auswählen sämtlicher der Erkennungsergebnisse sein, die die Erkennungssteuereinheit 5 akquiriert. Das Auswahlverfahren kann alternativ eines zum Auswählen von Erkennungsergebnissen einschließlich des Erkennungsergebnisses mit der erstplatzierten Erkennungsbewertung bis zu einem Erkennungsergebnis mit einer X-t platzierten Erkennungsbewertung sein. Als eine Alternative kann das Auswahlverfahren eines zum Auswählen von einem oder mehreren Erkennungsergebnissen sein, die jeweils eine Erkennungsbewertung haben, deren Differenz bezüglich der erstplatzierten Erkennungsbewertung gleich oder kleiner als ein vorbestimmter Wert ist. Außerdem kann ein Erkennungsergebnis, dessen Erkennungsbewertung geringer als eine vorbestimmte Schwelle ist, ausgeschlossen werden, selbst wenn das Erkennungsergebnis in den Erkennungsergebnissen einschließlich von dem Erkennungsergebnis mit der erstplatzierten Erkennungsbewertung bis zu dem Erkennungsergebnis mit der X-t platzierten Erkennungsbewertung enthalten ist, oder das Erkennungsergebnis ist in dem einen oder den mehreren Erkennungsergebnissen enthalten, die jeweils eine Erkennungsbewertung haben, deren Differenz bezüglich der erstplatzierten Erkennungsbewertung gleich oder kleiner als der vorbestimmte Wert ist.
3 ist ein Diagramm, das ein Beispiel einer Anzeige eines Erkennungsergebnisses mit einer erstplatzierten Erkennungsbewertung und eines Erkennungsergebnisses mit einer zweitplatzierten Erkennungsbewertung zeigt, die durch die jeweiligen Spracherkennungsteile akquiriert werden. In 3 bezeichnet ”Spracherkennungsprozess 1” zum Beispiel ein durch den ersten Spracherkennungsteil akquiriertes Erkennungsergebnis, und ”Spracherkennungsprozess 2” bezeichnet zum Beispiel ein durch den zweiten Spracherkennungsteil akquiriertes Erkennungsergebnis. Dasselbe trifft für ”Spracherkennungsprozess 3”, ”Spracherkennungsprozess 4” usw. zu. Die Erkennungsergebnisse, die dasjenige mit der erstplatzierten Erkennungsbewertung (Wahrscheinlichkeit) bis zu demjenigen mit der zweitplatzierten Erkennungsbewertung (Wahrscheinlichkeit) enthalten, werden in Reihenfolge für jeden der Spracherkennungsteile angezeigt.
4 ist ein Diagramm, das ein Beispiel einer Anzeige von Erkennungsergebnissen zeigt, die durch Verwendung eines unterschiedlichen Verfahrens für jeden der Spracherkennungsteile ausgewählt werden. In 4 werden für den ersten Spracherkennungsteil (”Spracherkennungsprozess 1”) die Erkennungsergebnisse, die das Erkennungsergebnis mit der erstplatzierten Erkennungsbewertung bis zu dem Erkennungsergebnis mit der zweitplatzierten Erkennungsbewertung enthalten, ausgewählt und angezeigt. Ferner werden für den zweiten Spracherkennungsteil (”Spracherkennungsprozess 2”) sämtliche der Erkennungsergebnisse auswählt und angezeigt. Somit kann sich das Auswahlverfahren zum Auswählen von Erkennungsergebnissen für jeden der Spracherkennungsteile in Schritten ST70 und ST90 unterscheiden.
Wenn der Benutzer ein auf der Anzeigeeinheit 8 angezeigtes Erkennungsergebnis beispielsweise durch Verwendung der Eingabeeinheit 12 auswählt, liest die Spracherkennungsvorrichtung das Ergebnis der Erkennung des durch den Benutzer geäußerten Bestimmungsortes von der Erkennungsergebnis-Speichereinheit 7 und gibt dann das Erkennungsergebnis an die Navigationsverarbeitungseinheit 9 aus. Die Navigationsverarbeitungseinheit 9 bestimmt eine Route von der aktuellen Fahrzeugposition zu dem Bestimmungsort durch Verwendung von beispielsweise der aktuellen Position des Fahrzeugs, die die Positionserfassungseinheit 10 akquiriert, des Ergebnisses der Erkennung des von der Erkennungsergebnis-Speichereinheit 7 gelesenen Bestimmungsortes, und von in der Karten-DB 11 gespeicherten Kartendaten und stellt eine Routenführung hinsichtlich der dadurch akquirierten Route für den Benutzer bereit.
Wie oben erwähnt, enthält die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1: die Soundakquiriereinheit 1 zum Ausführen einer digitalen Umwandlung eines eingegebenen Sounds, um Sounddaten zu akquirieren; die Sounddaten-Speichereinheit 2 zum Speichern der Sounddaten, die die Soundakquiriereinheit 1 akquiriert; die ersten bis M-ten Spracherkennungsteile, jeweils zum Erfassen eines Sprachintervalls aus den in der Sounddaten-Speichereinheit 2 gespeicherten Sounddaten, um eine Eigenschafsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und jeweils zum Ausführen eines Erkennungsprozesses auf der Grundlage der dadurch extrahierten Eigenschaftsgröße, während eines Referenzierens eines Erkennungslexikons; die Spracherkennungs-Umschalteinheit 4 zum Umschalten zwischen den ersten bis M-ten Spracherkennungsteilen; die Erkennungssteuereinheit 5 zum Steuern des Umschaltens zwischen den Spracherkennungsteilen durch die Spracherkennungs-Umschalteinheit 4, um durch einen ausgewählten Spracherkennungsteil akquirierte Erkennungsergebnisse zu akquirieren; und die Erkennungsergebnis-Auswähleinheit 6 zum Auswählen eines einem Benutzer zu präsentierenden Erkennungsergebnisses aus den durch die Erkennungssteuereinheit 5 akquirierten Erkennungsergebnissen. Weil die Spracherkennungsvorrichtung auf diese Weise konstruiert ist, kann, selbst in einem Fall, in dem ein einfacher Vergleich zwischen den Erkennungsbewertungen von Erkennungsergebnissen nicht gemacht werden kann, weil die Erkennungsergebnisse durch unterschiedliche Spracherkennungsprozesse akquiriert werden, und somit ein Erkennungsergebnis mit der höchsten Erkennungsbewertung nicht bestimmt werden kann, die Spracherkennungsvorrichtung ein Erkennungsergebnis, akquiriert durch jeden der Spracherkennungsprozesse, dem Benutzer präsentieren.
Ausführungsform 2
5 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt. Wie in 5 gezeigt, ist die Spracherkennungsvorrichtung gemäß Ausführungsform 2 versehen mit einer Soundakquiriereinheit 1, einer Sounddaten-Speichereinheit 2, einer Spracherkennungseinheit 3, einer Spracherkennungs-Umschalteinheit 4, einer Erkennungssteuereinheit 5, einer Erkennungsergebnis-Auswähleinheit 6A, einer Erkennungsergebnis-Speichereinheit 7 und einer Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13. Die Erkennungsergebnis-Auswähleinheit 6A wählt ein auszugebendes Erkennungsergebnis aus durch die Erkennungssteuereinheit 5 akquirierten Erkennungsergebnissen gemäß einem Auswahlverfahren-Steuersignal von der Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13 aus. Die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13 ist eine funktionale Komponente, die auf eine Spezifizierung eines Auswahlverfahrens zum Auswählen eines Erkennungsergebnisses reagiert, das die Erkennungsergebnis-Auswähleinheit 6A verwendet, zum Ausgeben des Auswahlverfahren-Steuersignals, um ein Auswahlverfahren, das durch einen Benutzer spezifiziert worden ist für jeden der ersten bis M-ten Spracherkennungsteile, an die Erkennungsergebnis-Auswähleinheit 6A. In 5 sind dieselben Komponenten wie diese in 1 gezeigten mit denselben Bezugszeichen bezeichnet, und die Erläuterung der Komponenten wird hier im Nachfolgenden weggelassen werden.
Als Nächstes wird die Operation der Spracherkennungsvorrichtung erläutert werden. Die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13 zeigt einen Schirm zur Spezifizierung eines Auswahlverfahrens zum Auswählen eines Erkennungsergebnisses auf einer Anzeigeeinheit 8 an, um eine HMI (Human Machine Interface bzw. Mensch-Maschine-Schnittstelle) zum Annehmen einer Spezifizierung durch einen Benutzer bereitzustellen.
Zum Beispiel zeigt die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit einen Schirm zur Spezifizierung an, der dem Benutzer ermöglicht, jeden der ersten bis M-ten Spracherkennungsteile in eine Zuordnung mit einem Auswahlverfahren durch die Benutzeroperation zu bringen. Als ein Ergebnis setzt die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit ein für jeden der Spracherkennungsteile ausgewähltes Auswahlverfahren für die Erkennungsergebnis-Auswähleinheit 6A. Der Benutzer kann ein Auswahlverfahren für jeden der Spracherkennungsteile gemäß den Benutzerbedürfnissen spezifizieren und kann auch ein Auswahlverfahren für jeden der Spracherkennungsteile gemäß dem Benutzerstatus der Spracherkennungsvorrichtung spezifizieren. In einem Fall, in dem ein Wichtigkeitsgrad für jeden der Spracherkennungsteile voreingestellt ist, kann außerdem die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit ein Auswahlverfahren derart spezifizieren, dass eine größere Anzahl von Erkennungsergebnissen aus den Erkennungsergebnissen ausgewählt wird, die durch einen Spracherkennungsteil mit einem höheren Wichtigkeitsgrad akquiriert worden sind. Die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit kann eine Festlegung machen, um irgendein Auswahlverfahren für einen gewissen Spracherkennungsteil nicht zu spezifizieren. Genauer genommen kann die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit eine Festlegung machen, nicht irgendein durch den Spracherkennungsteil akquiriertes Erkennungsergebnis auszugeben.
Eine durch die Spracherkennungsvorrichtung gemäß Ausführungsform 2 ausgeführte Spracherkennungsverarbeitung ist dieselbe wie die in dem Flussdiagramm von 2 gezeigte, die in der oben erwähnten Ausführungsform 1 erläutert worden ist. Jedoch wählt in Schritten ST70 und ST90 die Erkennungsergebnis-Auswähleinheit 6A ein Erkennungsergebnis gemäß dem Auswahlverfahren aus, das die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13 festlegt. Aus den Erkennungsergebnissen, die die Erkennungssteuereinheit 5 von einem ersten Spracherkennungsteil akquiriert, wählt zum Beispiel die Erkennungsergebnis-Auswähleinheit ein Erkennungsergebnis mit einer erstplatzierten Erkennungsbewertung aus, und wählt aus den Erkennungsergebnissen, die die Erkennungssteuereinheit 5 von einem zweiten Spracherkennungsteil akquiriert, sämtliche von diesen aus. Gemäß Ausführungsform 2 wird es somit dem Benutzer ermöglicht, ein Auswahlverfahren zum Auswählen eines Erkennungsergebnisses für jeden der Spracherkennungsteile zu bestimmen. Andere Prozesse sind dieselben wie diese gemäß der oben erwähnten Ausführungsform 1.
Wie oben erwähnt, enthält die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13 zum Annehmen einer Spezifizierung eines Auswahlverfahrens zum Auswählen eines einem Benutzer zu präsentierenden Erkennungsergebnisses aus Erkennungsergebnissen, die die Erkennungssteuereinheit 5 akquiriert, und zum Ändern des Auswahlverfahrens zum Auswählen eines Erkennungsergebnisses, das die Erkennungsergebnis-Auswähleinheit 6A verwendet, gemäß dem spezifizierten Auswahlverfahren. Weil die Spracherkennungsvorrichtung derart konstruiert ist, ermöglicht die Spracherkennungsvorrichtung dem Benutzer, das Auswahlverfahren zum Auswählen eines Erkennungsergebnisses zu spezifizieren, das die Erkennungsergebnis-Auswähleinheit 6A verwendet, und kann das Ergebnis eines Spracherkennungsprozesses, von dem der Benutzer denkt, dass es optimal ist, beispielsweise gemäß dem Benutzungsstatus davon, dem Benutzer präsentieren.
Ausführungsform 3
6 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 3 der vorliegenden Erfindung zeigt. Wie in 6 gezeigt, ist die Spracherkennungsvorrichtung gemäß Ausführungsform 3 versehen mit einer Soundakquiriereinheit 1, einer Sounddaten-Speichereinheit 2A, einer Spracherkennungseinheit 3, einer Spracherkennungs-Umschalteinheit 4, einer Erkennungssteuereinheit 5, einer Erkennungsergebnis-Auswähleinheit 6, einer Erkennungsergebnis-Speichereinheit 7 und einer Sprachintervall-Erfassungseinheit 14. In 6 sind dieselben Komponenten wie diese in 1 gezeigten mit denselben Bezugszeichen bezeichnet, und die Erläuterung der Komponenten wird hier im Nachfolgenden weggelassen werden.
Die Sounddaten-Speichereinheit 2A speichert Sounddaten hinsichtlich eines Sounds, der innerhalb eines Sprachintervalls empfangen worden ist, das durch die Sprachintervall-Erfassungseinheit 14 erfasst wird. Ferner erfasst die Sprachintervall-Erfassungseinheit 14 Sounddaten hinsichtlich eines Sounds, der innerhalb eines Sprachintervalls empfangen worden ist, das einer Beschreibung einer Benutzeräußerung entspricht, von Sounddaten, die die Soundakquiriereinheit 1 akquiriert. Jeder der ersten bis M-ten Spracherkennungsteile extrahiert eine Eigenschaftsgröße der in der Sounddaten-Speichereinheit 2A gespeicherten Sounddaten und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der dadurch extrahierten Eigenschaftsgröße aus, während eines Referenzierens eines Erkennungslexikons. Somit führt in Ausführungsform 3 jeder der ersten bis M-ten Spracherkennungsteile nicht den Sprachintervall-Erfassungsprozess individuell aus.
Als Nächstes wird die Operation der Spracherkennungsvorrichtung erläutert werden. 7 ist ein Flussdiagramm, in dem der Fluss des Spracherkennungsprozesses gemäß der Spracherkennungsvorrichtung gemäß Ausführungsform 3 gezeigt ist. Zuerst führt die Soundakquiriereinheit 1 eine A/D-Umwandlung auf einem Sound aus, der innerhalb eines gewissen Zeitintervalls empfangen worden ist, das dorthin via ein Mikrofon oder dergleichen eingegeben wird, um Sounddaten in einer gewissen Form, beispielweise eine PCM-Form, zu akquirieren (Schritt ST210). Die Sprachintervall-Erfassungseinheit 14 erfasst dann Sounddaten hinsichtlich eines Sounds, der innerhalb eines Intervalls empfangen worden ist, das einer Beschreibung einer Benutzeräußerung entspricht, von den Sounddaten, die die Soundakquiriereinheit 1 akquiriert (Schritt ST220). Die Sounddaten-Speichereinheit 2A speichert die durch die Sprachintervall-Erfassungseinheit 14 erfassten Sounddaten (Schritt ST230).
Die Erkennungssteuereinheit 5 initialisiert dann eine Variable N auf 1 (Schritt ST240). Die Erkennungssteuereinheit 5 gibt dann ein Umschaltsteuersignal zum Umschalten der Spracherkennungseinheit 3 zu dem N-ten Spracherkennungsteil an die Spracherkennungs-Umschalteinheit 4 aus. Die Spracherkennungs-Umschalteinheit 4 schaltet die Spracherkennungseinheit 3 zu den N-ten Spracherkennungsteil gemäß dem Umschaltsteuersignal von der Erkennungsteuereinheit 5 um (Schritt ST250).
Der N-te Spracherkennungsteil extrahiert eine Eigenschaftsgröße aus den Sounddaten hinsichtlich eines Sounds, der innerhalb eines jeweiligen Sprachintervalls empfangen worden ist, das in der Sounddaten-Speichereinheit 2A gespeichert ist, und führt den Erkennungsprozess auf den Sounddaten auf der Grundlage der Eigenschaftsgröße aus, während eines Referenzierens des Erkennungslexikons (Schritt ST260). Weil Prozesse nachfolgender Schritte ST270 bis ST340 dieselben wie diese der in 2 gezeigten Schritte ST60 bis ST130 von der oben erwähnten Ausführungsform 1 sind, wird die Erläuterung der Prozesse hier im Nachfolgenden weggelassen werden.
Wie oben erwähnt, enthält die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 3: die Soundakquiriereinheit 1 zum Ausführen einer digitalen Umwandlung eines eingegebenen Sounds, um Sounddaten zu akquirieren; die Sprachintervall-Erfassungseinheit 14 zum Erfassen eines Sprachintervalls, das einer Benutzeräußerung entspricht, von den Sounddaten, die die Soundakquiriereinheit 1 akquiriert; die Sounddaten-Speichereinheit 2A zum Speichern von Sounddaten hinsichtlich jedes Sprachintervalls, das die Sprachintervall-Erfassungseinheit 14 erfasst; die ersten bis M-ten Spracherkennungsteile, jeweils zum Extrahieren einer Eigenschaftsgröße der in der Sounddaten-Speichereinheit 2A gespeicherten Sounddaten, und jeweils zum Ausführen eines Erkennungsprozesses auf der Grundlage der dadurch extrahierten Eigenschaftsgröße, während eines Referenzierens des Erkennungslexikons; die Spracherkennungs-Umschalteinheit 4 zum Umschalten zwischen den ersten bis M-ten Spracherkennungsteilen; die Erkennungssteuereinheit 5 zum Steuern des Umschaltens zwischen den Spracherkennungsteilen durch die Spracherkennungs-Umschalteinheit 4, um durch einen ausgewählten Spracherkennungsteil akquirierte Erkennungsergebnisse zu akquirieren; und die Erkennungsergebnis-Auswähleinheit 6 zum Auswählen eines einem Benutzer zu präsentierenden Erkennungsergebnisses aus den Erkennungsergebnissen, die die Erkennungssteuereinheit 5 akquiriert. Weil die Spracherkennungsvorrichtung derart konstruiert ist, führt jeder der ersten bis M-ten Spracherkennungsteile nicht die Sprachintervallerfassung aus. Deshalb kann die zum Ausführen des Erkennungsprozesses erforderliche Zeit reduziert werden.
Ausführungsform 4
8 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung zeigt. Wie in 8 gezeigt, ist die Spracherkennungsvorrichtung gemäß Ausführungsform 4 versehen mit einer Soundakquiriereinheit 1, einer Sounddaten-Speichereinheit 2, einer Spracherkennungseinheit 3A, einer Spracherkennungs-Umschalteinheit 4, einer Erkennungssteuereinheit 5, einer Erkennungsergebnis-Auswähleinheit 6 und einer Erkennungsergebnis-Speichereinheit 7. In 8 sind dieselben Komponenten wie diese in 1 gezeigten mit denselben Bezugszeichen bezeichnet, und die Erläuterung der Komponenten wird hier im Nachfolgenden weggelassen werden.
In der Spracherkennungseinheit 3A führt jeder der ersten bis M-ten Spracherkennungsteile einen Erkennungsprozess durch Verwenden eines Spracherkennungsverfahrens mit einem unterschiedlichen Grad einer Erkennungsgenauigkeit in einem Spracherkennungsalgorithmus davon aus. Während der Spracherkennungsalgorithmus, den ein N-ter (N = 1 bis M) Spracherkennungsteil verwendet, nicht geändert wird, führt genauer genommen der N-te Spracherkennungsteil ein Spracherkennungsverfahren mit einem unterschiedlichen Genauigkeitsgrad aus, in dem eine zu dem Grad der Spracherkennungsgenauigkeit beitragende Variable geändert wird. Zum Beispiel führt jeder der Spracherkennungsteile den Erkennungsprozess durch Verwendung sowohl eines Spracherkennungsverfahrens N(a), das einen niedrigen Erkennungsgenauigkeitsgrad hat, aber eine kurze Verarbeitungszeit hat, als auch ein Spracherkennungsverfahren N(b) aus, das einen hohen Erkennungsgenauigkeitsgrad hat, aber eine lange Verarbeitungszeit hat. Als die zu der Genauigkeit der Spracherkennung beitragende Variable können eine Rahmenperiode zu der Zeit eines Extrahierens einer Eigenschaftsgröße eines Sprachintervalls, die Anzahl von Mischkomponenten in akustischen Modellen, die Anzahl akustischer Modelle oder eine Kombination mancher dieser Variablen bereitgestellt sein.
Ein Spracherkennungsverfahren mit einem niedrigen Grad einer Erkennungsgenauigkeit wird durch die oben erwähnte Variable definiert, die auf die folgende Weise modifiziert wird: die Rahmenperiode zu der Zeit eines Extrahierens einer Eigenschaftsgröße eines Sprachintervalls, die/das länger als ein vorbestimmter Wert gesetzt werden soll, die Anzahl von Mischkomponenten in akustischen Modellen, die auf einen Wert kleiner als ein vorbestimmter Wert verringert wird, die Anzahl akustischer Modelle, die auf einen Wert kleiner als ein vorbestimmter Wert verringert werden, oder eine Kombination mancher dieser Variablen. Im Gegensatz dazu wird ein Spracherkennungsverfahren mit einem hohen Grad einer Erkennungsgenauigkeit durch die oben erwähnte Variable definiert, die auf die folgende Weise modifiziert wird: die Rahmenperiode zu der Zeit eines Extrahierens einer Eigenschaftsgröße eines Sprachintervalls, das/die gesetzt wird, um gleich oder länger als der oben erwähnte vorbestimmte Wert zu sein, die Anzahl von Mischkomponenten in akustischen Modellen, die auf einen Wert gleich oder größer als der oben erwähnte vorbestimmte Wert erhöht wird, die Anzahl akustischer Modelle, die auf einen Wert gleich oder größer als der oben erwähnte vorbestimmte Wert erhöht wird, oder eine Kombination mancher dieser Variablen. Es wird einem Benutzer ermöglicht, die oben erwähnte zu dem Grad der Erkennungsgenauigkeit des Spracherkennungsverfahrens beitragende Variable zu setzen, das/die jeder der ersten bis M-ten Spracherkennungsteile verwendet, wo es zweckgemäß ist, um den Erkennungsgenauigkeitsgrad zu bestimmen.
Als Nächstes wird die Operation der Spracherkennungsvorrichtung erläutert werden. 9 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 4 ausgeführt wird. Zuerst führt die Soundakquiriereinheit 1 eine A/D-Umwandlung eines Sounds aus, der innerhalb eines vorbestimmten Zeitintervalls empfangen worden ist, der/das dorthin via ein Mikrofon oder dergleichen eingegeben wird, um Sounddaten in einer gewissen Form zu akquirieren, zum Beispiel eine PCM-Form (Schritt ST410). Die Sounddaten-Speichereinheit 2 speichert die durch die Soundakquiriereinheit 1 akquirierten Sounddaten (Schritt ST420).
Die Erkennungssteuereinheit 5 initialisiert dann eine Variable N auf 1 (Schritt ST430). Die Variable N kann einen von 1 bis M rangierenden Wert haben. Die Erkennungssteuereinheit 5 gibt dann ein Umschaltsteuersignal zum Umschalten der Spracherkennungseinheit 3A zu dem N-ten Spracherkennungsteil an die Spracherkennungs-Umschalteinheit 4 aus. Die Spracherkennungs-Umschalteinheit 4 schaltet die Spracherkennungseinheit 3A zu dem N-ten Spracherkennungsteil gemäß dem Umschaltsteuersignal von der Erkennungssteuereinheit 5 um (Schritt ST440).
Der N-te Spracherkennungsteil erfasst ein Sprachintervall, das einer Benutzeräußerung entspricht, von den in der Sounddaten-Speichereinheit 2 gespeicherten Sounddaten, extrahiert eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der Eigenschaftsgröße aus, während eines Referenzierens eines Erkennungslexikons, durch Verwendung eines Spracherkennungsverfahrens mit einem niedrigen Erkennungsgenauigkeitsgrad (Schritt ST450). Wenn ein durch die Erkennungsergebnis-Auswähleinheit 6 akquiriertes Erkennungsergebnis dann in der Erkennungsergebnis-Speichereinheit 7 gespeichert ist/wird, inkrementiert die Erkennungssteuereinheit 5 die Variable N um 1 (Schritt ST460), und bestimmt, ob der Wert der Variable N die Gesamtanzahl M der Spracherkennungsteile überschreitet (Schritt ST470). Wenn der Wert der Variable N gleich oder kleiner als die Gesamtanzahl M der Spracherkennungsteile ist (wenn NEIN im Schritt ST470), kehrt die Spracherkennungsvorrichtung zu dem Prozess von Schritt ST440 zurück. Die Spracherkennungsvorrichtung wiederholt dann die oben erwähnten Prozesse durch Verwendung des Spracherkennungsteils, zu dem die Spracherkennungs-Umschalteinheit die Spracherkennungseinheit umschaltet.
Wenn im Gegensatz dazu der Wert der Variable N die Gesamtanzahl M der Spracherkennungsteile überschreitet (wenn JA im Schritt ST470), akquiriert die Erkennungssteuereinheit 5 Erkennungsergebnisse von dem N-ten Spracherkennungsteil, vergleicht eine erstplatzierte Erkennungsbewertung (Wahrscheinlichkeit) in den Erkennungsbewertungen der Erkennungsergebnisse mit einer vorbestimmten Schwelle und bestimmt, ob es K Spracherkennungsteile gibt, von denen jeder eine erstplatzierte Erkennungsbewertung gleich oder höher als die Schwelle bereitstellt (Schritt ST480). Als ein Ergebnis grenzt die Spracherkennungsvorrichtung die ersten bis M-ten Spracherkennungsteile auf K Spracherkennungsteile L(1) bis L(K) ein, von denen jeder eine erstplatzierte Erkennungsbewertung gleich oder höher als die Schwelle durch Verwendung eines Spracherkennungsverfahrens mit einem niedrigen Erkennungsgenauigkeitsgrad bereitstellt.
Die Erkennungssteuereinheit 5 initialisiert eine Variable n auf 1 (Schritt ST490). n ist die Variable mit einem von 1 bis K rangierenden Wert. Als Nächstes gibt die Erkennungssteuereinheit 5 ein Umschaltsteuersignal zum Umschalten zu dem Spracherkennungsteil L(n) unter den Spracherkennungsteilen L(1) bis L(K), ausgewählt im Schritt ST480, an die Spracherkennungs-Umschalteinheit 4 aus. Die Spracherkennungs-Umschalteinheit 4 schaltet die Spracherkennungseinheit 3A zu dem Spracherkennungsteil L(n) gemäß dem Umschaltsteuersignal von der Erkennungssteuereinheit 5 um (Schritt ST500).
Der Spracherkennungsteil L(n) erfasst ein Sprachintervall, das einer Benutzeräußerung entspricht, von den in der Sounddaten-Speichereinheit 2 gespeicherten Sounddaten, extrahiert eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der Eigenschaftsgröße aus, während eines Referenzierens des Erkennungslexikons, durch Verwenden eines Spracherkennungsverfahrens mit einem hohen Erkennungsgenauigkeitsgrad (Schritt ST510). Jedes Mal, wenn der Spracherkennungsteil L(n) den Erkennungsprozess abschließt, akquiriert die Erkennungssteuereinheit 5 die durch den Spracherkennungsteil akquirierten Erkennungsergebnisse.
Als Nächstes wählt die Erkennungsergebnis-Auswähleinheit 6 ein auszugebendes Erkennungsergebnis aus den Erkennungsergebnissen aus, die durch den N-ten Spracherkennungsteil akquiriert worden sind, was die Erkennungssteuereinheit 5 akquiriert durch Verwenden desselben Verfahrens wie dem gemäß der oben erwähnten Ausführungsform 1 (Schritte ST70 und ST90 von 2) (Schritt ST520). Die Erkennungsergebnis-Auswähleinheit 6 speichert das ausgewählte Erkennungsergebnis in der Erkennungsergebnis-Speichereinheit 7 (Schritt ST530).
Wenn das Erkennungsergebnis in der Erkennungsergebnis-Speichereinheit 7 durch die Erkennungsergebnis-Auswähleinheit 6 gespeichert wird, inkrementiert die Erkennungssteuereinheit 5 die Variable n um 1 (Schritt ST540) und bestimmt, ob der Wert der Variable n die Anzahl K der Spracherkennungsteile überschreitet, die im Schritt ST480 ausgewählt worden ist/sind (Schritt ST550). Wenn der Wert der Variable n gleich oder kleiner als die Anzahl K der Spracherkennungsteile ist, die im Schritt ST480 ausgewählt worden ist/sind (wenn NEIN im Schritt ST550), kehrt die Spracherkennungsvorrichtung zu dem Prozess von Schritt ST500 zurück. Als ein Ergebnis wiederholt die Spracherkennungsvorrichtung die oben erwähnten Prozesse durch Verwendung des Spracherkennungsteils, zu dem die Spracherkennungs-Umschalteinheit die Spracherkennungseinheit umschaltet.
Wenn der Wert der Variable n die Anzahl K der Spracherkennungsteile überschreitet, die im Schritt ST480 ausgewählt worden ist/sind (wenn JA im Schritt ST550), gibt eine Anzeigeeinheit 8 die Erkennungsergebnisse aus, die durch die Spracherkennungsteile L(1) bis L(K) akquiriert worden sind, die in der Erkennungsergebnis-Speichereinheit 7 gespeichert sind (Schritt ST130). Die Anzeigeeinheit 8 kann die Erkennungsergebnisse in der Reihenfolge ausgeben, in der die Erkennungsergebnisse durch die Spracherkennungsteile L(1) bis L(K) akquiriert worden sind.
Wie oben erwähnt, kann in der Spracherkennungsvorrichtung gemäß dieser Ausführungsform 4 jeder der ersten bis M-ten Spracherkennungsteile der Spracherkennungseinheit 3A einen Erkennungsprozess mit einem unterschiedlichen Genauigkeitsgrad ausführen, und die Erkennungssteuereinheit 5 veranlasst jeden der Spracherkennungsteile, den Erkennungsprozess mit einem schrittweise ansteigenden Genauigkeitsgrad auszuführen, während eines Eingrenzens der Spracherkennungsteile, von denen jeder den Erkennungsprozess ausführt, auf der Grundlage der Erkennungsbewertungen der Erkennungsergebnisse, die durch die Spracherkennungsteile akquiriert worden sind. Weil die Spracherkennungsvorrichtung auf diese Weise konstruiert ist, führt zum Beispiel durch Verwendung einer Kombination eines Spracherkennungsverfahrens, das einen niedrigen Erkennungsgenauigkeitsgrad hat, aber eine kurze Verarbeitungszeit hat, und eines Spracherkennungsverfahrens, das einen hohen Erkennungsgenauigkeitsgrad hat, aber eine lange Verarbeitungszeit hat, die Spracherkennungsvorrichtung eine Spracherkennung durch Verwendung des Verfahrens mit einem niedrigen Genauigkeitsgrad beim Durchführen von jedem einer Vielzahl von Spracherkennungsprozessen aus und führt dann eine Spracherkennung hoher Genauigkeit beim Durchführen eines Spracherkennungsprozesses aus, der eine hohe Erkennungsbewertung unter der Vielzahl von Spracherkennungsprozessen bereitstellt. Weil die Spracherkennungsvorrichtung nicht eine Spracherkennung hoher Genauigkeit beim Durchführen von jedem all der Erkennungsprozesse ausführen muss, ist sie dadurch als ein Ergebnis fähig, die Zeit zu reduzieren, die zum Ausführen der gesamten Erkennungsverarbeitung erforderlich ist.
Ausführungsform 5
10 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 5 der vorliegenden Erfindung zeigt. Wie in 10 gezeigt, ist die Spracherkennungsvorrichtung gemäß Ausführungsform 5 versehen mit einer Soundakquiriereinheit 1, einer Sounddaten-Speichereinheit 2, einer Spracherkennungseinheit 3, einer Spracherkennungs-Umschalteinheit 4, einer Erkennungssteuereinheit 5 und einer Erkennungsergebnis-Bestimmungseinheit 15. Die Erkennungsergebnis-Bestimmungseinheit 15 nimmt eine Auswahl eines Erkennungsergebnisses an, die durch einen Benutzer auf der Grundlage von Kandidaten für Erkennungsergebnisse gemacht wird, die auf einer Anzeigeeinheit 8 angezeigt sind, und bestimmt den ausgewählten Kandidaten für ein Erkennungsergebnis als ein endgültiges Erkennungsergebnis. Zum Beispiel zeigt die Erkennungsergebnis-Bestimmungseinheit 15 einen Schirm zur Auswahl eines Erkennungsergebnisses auf dem Schirm der Anzeigeeinheit 8 an und stellt eine HMI bereit, um dem Benutzer zu ermöglichen, einen Kandidaten für ein Erkennungsergebnis auf der Grundlage des Schirms zur Auswahl eines Erkennungsergebnisses durch Verwenden einer Eingabeeinheit, so wie ein Touch-Panel, eine harte Taste, oder Schalter, auszuwählen. In 10 sind dieselben Komponenten wie diese in 1 gezeigten mit denselben Bezugszeichen bezeichnet, und die Erläuterung der Komponenten wird hier im Nachfolgenden weggelassen werden.
Als Nächstes wird die Operation der Spracherkennungsvorrichtung erläutert werden. 11 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 5 ausgeführt wird. Zuerst führt die Soundakquiriereinheit 1 eine A/D-Umwandlung auf einem Sound durch, der innerhalb eines vorbestimmten Zeitintervalls empfangen worden ist, der/das dorthin via ein Mikrofon oder dergleichen eingegeben wird, um Sounddaten in einer gewissen Form zu akquirieren, zum Beispiel eine PCM-Form (Schritt ST610). Die Sounddaten-Speichereinheit 2 speichert die durch die Soundakquiriereinheit 1 akquirierten Sounddaten (Schritt ST620).
Die Erkennungssteuereinheit 5 initialisiert dann eine Variable N auf 1 (Schritt ST630). Die Variable N kann einen von 1 bis M rangierenden Wert haben. Die Erkennungssteuereinheit 5 gibt dann ein Umschaltsteuersignal zum Umschalten der Spracherkennungseinheit 3 zu dem N-ten Spracherkennungsteil an die Spracherkennungs-Umschalteinheit 4 aus. Die Spracherkennungs-Umschalteinheit 4 schaltet die Spracherkennungseinheit 3 zu dem N-ten Spracherkennungsteil gemäß dem Umschaltsteuersignal von der Erkennungssteuereinheit 5 um (Schritt ST640).
Der N-te Spracherkennungsteil erfasst ein Sprachintervall, das einer Benutzeräußerung entspricht, von den in der Sounddaten-Speichereinheit 2 gespeicherten Daten, extrahiert eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der Eigenschaftsgröße aus, während eines Referenzierens eines Erkennungslexikons (Schritt ST650). Die Erkennungssteuereinheit 5 akquiriert Erkennungsergebnisse von dem N-ten Spracherkennungsteil und gibt die Erkennungsergebnisse an die Anzeigeeinheit 8 aus. Beim Empfangen der Erkennungsergebnisse von der Erkennungssteuereinheit 5 zeigt die Anzeigeeinheit 8 die dorthin eingegebenen Erkennungsergebnisse als Kandidaten für ein Erkennungsergebnis gemäß einer Steueroperation durch die Erkennungsergebnis-Bestimmungseinheit 15 an (Schritt ST660).
Wenn die Anzeigeeinheit 8 die Kandidaten für ein Erkennungsergebnis anzeigt, tritt die Erkennungsergebnis-Bestimmungseinheit 15 in einen Zustand, in dem auf die Benutzerauswahl eines Erkennungsergebnisses gewartet wird, und bestimmt, ob der Benutzer einen Kandidaten für ein Erkennungsergebnis ausgewählt hat, das auf der Anzeigeeinheit 8 angezeigt wird (Schritt ST670). Wenn der Benutzer einen Kandidaten für ein Erkennungsergebnis auswählt (wenn JA im Schritt ST670), bestimmt die Erkennungsergebnis-Bestimmungseinheit 15 den Kandidaten für ein Erkennungsergebnis, der durch den Benutzer ausgewählt worden ist, als ein endgültiges Erkennungsergebnis (Schritt ST680). Als ein Ergebnis beendet die Spracherkennungsvorrichtung die Erkennungsverarbeitung.
Wenn im Gegensatz dazu der Benutzer nicht irgendeinen Kandidaten für ein Erkennungsergebnis ausgewählt hat (wenn NEIN im Schritt ST670), inkrementiert die Erkennungssteuereinheit 5 die Variable N um 1 (Schritt ST690) und bestimmt, ob der Wert der Variable N die Anzahl M der Spracherkennungsteile überschreitet (Schritt ST700). Wenn der Wert der Variable N die Anzahl M der Spracherkennungsteile überschreitet (wenn JA im Schritt ST700), beendet die Spracherkennungsvorrichtung die Erkennungsverarbeitung. Wenn im Gegensatz dazu der Wert der Variable N gleich oder kleiner als die Anzahl M der Spracherkennungsteile ist (wenn NEIN im Schritt ST700), kehrt die Spracherkennungsvorrichtung zu dem Prozess von Schritt ST640 zurück. Als ein Ergebnis wiederholt die Spracherkennungsvorrichtung die oben erwähnten Prozesse durch Verwendung des Spracherkennungsteils, zu dem die Spracherkennungs-Umschalteinheit die Spracherkennungseinheit umschaltet.
Wie oben erwähnt, enthält die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 5 die Soundakquiriereinheit 1 zum Ausführen einer digitalen Umwandlung auf einem eingegebenen Sound, um Sounddaten zu akquirieren; die Sounddaten-Speichereinheit 2 zum Speichern der Sounddaten, die die Soundakquiriereinheit 1 akquiriert; die ersten bis M-ten Spracherkennungsteile, jeweils zum Erfassen eines Sprachintervalls aus den in der Sounddaten-Speichereinheit 2 gespeicherten Sounddaten, um eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und jeweils zum Ausführen eines Erkennungsprozesses auf der Grundlage der dadurch extrahierten Eigenschaftsgröße, während eines Referenzierens des Erkennungslexikons; die Spracherkennungs-Umschalteinheit 4 zum Umschalten unter den ersten bis M-ten Spracherkennungsteilen; die Erkennungssteuereinheit 5 zum Steuern des Umschaltens unter den Spracherkennungsteilen durch die Spracherkennungs-Umschalteinheit 4, um durch einen ausgewählten Spracherkennungsteil akquirierte Erkennungsergebnisse zu akquirieren; und die Erkennungsergebnis-Bestimmungseinheit 15 zum Annehmen einer Benutzerauswahl eines Erkennungsergebnisses von den Erkennungsergebnissen, die die Erkennungssteuereinheit 5 akquiriert und dem Benutzer präsentiert, und zum Bestimmen des durch den Benutzer ausgewählten Erkennungsergebnisses als ein endgültiges Erkennungsergebnis. Weil die Spracherkennungsvorrichtung derart konstruiert ist, kann die Spracherkennungsvorrichtung das Erkennungsergebnis, das der Benutzer ausgewählt und spezifiziert hat, als ein endgültiges Erkennungsergebnis vor einem Ausführen sämtlicher der Erkennungsprozesse bestimmen. Deshalb kann die Spracherkennungsvorrichtung die Zeit, die erforderlich ist zum Ausführen der gesamten Erkennungsverarbeitung, reduzieren.
Obwohl der Fall, in dem die Erkennungsergebnisse auf der Anzeigeeinheit 8 angezeigt werden, in den oben erwähnten Ausführungsformen 1 bis 5 gezeigt wird, ist die Präsentation der Erkennungsergebnisse für den Benutzer nicht auf eine Schirmanzeige der Erkennungsergebnisse auf der Anzeigeeinheit 8 beschränkt. Zum Beispiel können die Erkennungsergebnisse via eine Sprachführung durch Verwendung einer Soundausgabeeinheit, so wie ein Lautsprecher, bereitgestellt werden.
Obwohl der Fall, in dem die Navigationsvorrichtung gemäß der vorliegenden Erfindung auf eine Fahrzeugnavigationsvorrichtung angewendet wird, in der oben erwähnten Ausführungsform 1 gezeigt ist, kann die Navigationsvorrichtung nicht nur auf eine fahrzeugmontierte, sondern auch auf ein Mobiltelefonendgerät oder ein mobiles Informationsendgerät (PDA; Personal Digital Assistance) angewendet werden. Außerdem kann die Navigationsvorrichtung gemäß der vorliegenden Erfindung auf eine PND (Portable Navigation Device) oder dergleichen angewendet werden, die eine Person auf einem sich bewegenden Objekt, so wie ein Auto, ein Eisenbahnzug, ein Schiff oder ein Flugzeug, trägt. Außerdem kann nicht nur die Spracherkennungsvorrichtung gemäß der oben erwähnten Ausführungsform 1, sondern auch die Spracherkennungsvorrichtung gemäß irgendeiner der oben erwähnten Ausführungsformen 2 bis 5 auf eine Navigationsvorrichtung angewendet werden.
Während die vorliegenden Erfindung in ihren bevorzugten Ausführungsformen beschrieben worden ist, sollte es verstanden werden, dass eine beliebige Kombination von zwei oder mehr der oben erwähnten Ausführungsformen gemacht werden kann, vielfältige Änderungen in einer beliebigen Komponente gemäß irgendeiner der oben erwähnten Ausführungsformen gemacht werden können, und eine beliebige Komponente gemäß irgendeiner der oben erwähnten Ausführungsformen innerhalb des Schutzbereichs der Erfindung weggelassen werden kann.
GEWERBLICHE ANWENDBARKEIT
Weil die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung durch verschiedene Spracherkennungsprozesse akquirierte Erkennungsergebnisse exakt präsentieren kann und eine Reduzierung der zum Ausführen der Erkennungsverarbeitung erforderlichen Zeit erreichen kann, ist die Spracherkennungsvorrichtung für eine Spracherkennung in einer fahrzeugmontierten Navigationsvorrichtung geeignet, die eine Beschleunigung der Erkennungsverarbeitung und der Genauigkeit von Erkennungsergebnissen benötigt.
ERLÄUTERUNGEN DER BEZUGSZEICHEN

1 Soundakquiriereinheit, 2 und 2A Sounddaten-Speichereinheit, 3 und 3A Spracherkennungseinheit, 4 Spracherkennungs-Umschalteinheit, 5 Erkennungssteuereinheit, 6 und 6A Erkennungsergebnis-Auswähleinheit, 7 Erkennungsergebnis-Speichereinheit, 8 Anzeigeeinheit, 9 Navigationsverarbeitungseinheit, 10 Positionserfassungseinheit, 11 Kartendatenbank (DB), 12 Eingabeeinheit, 13 Erkennungsergebnis-Auswahlverfahren-Änderungseinheit, 14 Sprachintervall-Erfassungseinheit, 15 Erkennungsergebnis-Bestimmungseinheit

Claims

Spracherkennungsvorrichtung mit: einer Akquiriereinheit, die eine digitale Umwandlung eines eingegebenen Sounds ausführt, um Sounddaten zu akquirieren; einem Sounddatenspeicher, der die Sounddaten speichert, die die Akquiriereinheit akquiriert; einer Vielzahl von Spracherkennern, von denen jeder ein Sprachintervall aus den in dem Sounddatenspeicher gespeicherten Sounddaten erfasst, um eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und von denen jeder einen Erkennungsprozess auf einer Grundlage der dadurch extrahierten Eigenschaftsgröße während eines Referenzierens eines Erkennungslexikons ausführt; einem Schalter, der zwischen der Vielzahl von Spracherkennern umschaltet; einer Steuereinrichtung, die das Umschalten zwischen den Spracherkennern durch den Schalter steuert, um durch einen ausgewählten Spracherkenner akquirierte Erkennungsergebnisse zu akquirieren; und einem Selektor, der ein einem Benutzer zu präsentierendes Erkennungsergebnis aus den durch die Steuereinrichtung akquirierten Erkennungsergebnissen auswählt.
Spracherkennungsvorrichtung mit: einer Akquiriereinheit, die eine digitale Umwandlung eines eingegebenen Sounds ausführt, um Sounddaten zu akquirieren; einem Sprachintervalldetektor, der ein Sprachintervall, das einer Benutzeräußerung entspricht, aus den Sounddaten erfasst, die die Akquiriereinheit akquiriert; einem Sounddatenspeicher, der Sounddaten über jedes Sprachintervall speichert, das der Sprachintervalldetektor erfasst; einer Vielzahl von Spracherkennern, von denen jeder eine Eigenschaftsgröße der in dem Sounddatenspeicher gespeicherten Sounddaten extrahiert, und von denen jeder einen Erkennungsprozess auf einer Grundlage der dadurch extrahierten Eigenschaftsgröße während eines Referenzierens eines Erkennungslexikons ausführt; einem Schalter, der zwischen der Vielzahl von Spracherkennern umschaltet; einer Steuereinrichtung, die das Umschalten zwischen den Spracherkennern durch den Schalter steuert, um durch einen ausgewählten Spracherkenner akquirierte Erkennungsergebnisse zu akquirieren; und einem Selektor, der ein einem Benutzer zu präsentierendes Erkennungsergebnis aus den durch die Steuereinrichtung akquirierten Erkennungsergebnissen auswählt.
Spracherkennungsvorrichtung mit: einer Akquiriereinheit, die eine digitale Umwandlung eines eingegebenen Sounds ausführt, um Sounddaten zu akquirieren; einem Sounddatenspeicher, der die Sounddaten speichert, die die Akquiriereinheit akquiriert; einer Vielzahl von Spracherkennern, von denen jeder ein Sprachintervall aus den in dem Sounddatenspeicher gespeicherten Sounddaten erfasst, um eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und von denen jeder einen Erkennungsprozess auf Grundlage der dadurch extrahierten Eigenschaftsgröße während eines Referenzierens eines Erkennungslexikons ausführt; einem Schalter, der zwischen der Vielzahl von Spracherkennern umschaltet; einer Steuereinrichtung, die das Umschalten zwischen den Spracherkennern durch den Schalter steuert, um durch einen ausgewählten Spracherkenner akquirierte Erkennungsergebnisse zu akquirieren; und einem Bestimmer, der eine Benutzerauswahl eines Erkennungsergebnisses aus den Erkennungsergebnissen, die die Steuereinrichtung akquiriert und dem Benutzer präsentiert, annimmt, und zum Bestimmen des durch den Benutzer ausgewählten Erkennungsergebnisses als ein endgültiges Erkennungsergebnis.
Spracherkennungsvorrichtung gemäß Anspruch 1 oder 2, wobei die Spracherkennungsvorrichtung einen Wechsler enthält, der eine Spezifizierung eines Auswahlverfahrens zum Auswählen des dem Benutzer zu präsentierenden Erkennungsergebnisses aus den Erkennungsergebnissen enthält, die die Steuereinrichtung akquiriert, und zum Ändern eines Auswahlverfahrens zum Auswählen des Erkennungsergebnisses, das der Selektor verwendet, gemäß dem spezifizierten Auswahlverfahren.
Spracherkennungsvorrichtung gemäß einem der Ansprüche 1 bis 4, wobei jeder der Vielzahl von Spracherkennern einen Erkennungsprozess mit einem unterschiedlichen Genauigkeitsgrad ausführen kann, und die Steuereinrichtung jeden der Spracherkenner veranlasst, den Erkennungsprozess mit einem schrittweise zunehmenden Genauigkeitsgrad auszuführen, während eines Eingrenzens der Spracherkenner, von denen jeder den Erkennungsprozess ausführt, auf Grundlage von Erkennungsbewertungen ihrer Erkennungsergebnisse.
Navigationsvorrichtung mit einer Spracherkennungsvorrichtung gemäß einem der Ansprüche 1 bis 5, wobei die Navigationsvorrichtung einen Navigationsprozess durch Verwendung von durch die Spracherkenner akquirierten Erkennungsergebnissen ausführt.