DE112011105407T5 - Spracherkennungsvorrichtung und Navigationsvorrichtung - Google Patents

Spracherkennungsvorrichtung und Navigationsvorrichtung Download PDF

Info

Publication number
DE112011105407T5
DE112011105407T5 DE112011105407.6T DE112011105407T DE112011105407T5 DE 112011105407 T5 DE112011105407 T5 DE 112011105407T5 DE 112011105407 T DE112011105407 T DE 112011105407T DE 112011105407 T5 DE112011105407 T5 DE 112011105407T5
Authority
DE
Germany
Prior art keywords
recognition
speech
sound data
unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112011105407.6T
Other languages
English (en)
Inventor
Jun Ishii
Michihiro Yamazaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112011105407T5 publication Critical patent/DE112011105407T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Abstract

Offenbart wird eine Spracherkennungsvorrichtung mit: einer Soundakquiriereinheit (1) zum Ausführen einer digitalen Umwandlung eines eingegebenen Sounds und zum Akquirieren von Sounddaten; einer Sounddaten-Speichereinheit (2) zum Speichern der Sounddaten, die die Soundakquiriereinheit (1) akquiriert; ersten bis M-ten Spracherkennungsteilen, jeweils zum Erfassen eines Sprachintervalls aus den in der Sounddaten-Speichereinheit (2) gespeicherten Sounddaten, um eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und jeweils zum Ausführen eines Erkennungsprozesses auf der Grundlage der dadurch extrahierten Eigenschaftsgröße, während eines Referenzierens eines Erkennungslexikons; einer Spracherkennungs-Umschalteinheit (4) zum Umschalten zwischen den ersten bis M-ten Spracherkennungsteilen; einer Erkennungssteuereinheit (5) zum Steuern des Umschaltens zwischen den Spracherkennungsteilen durch die Spracherkennungs-Umschalteinheit (4), um durch einen ausgewählten Spracherkennungsteil akquirierte Erkennungsergebnisse zu akquirieren; und einer Erkennungsergebnis-Auswähleinheit (6) zum Auswählen eines einem Benutzer zu präsentierenden Erkennungsergebnisses aus den Erkennungsergebnissen, die durch die Erkennungssteuereinheit (5) akquiriert worden sind.

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft eine Spracherkennungsvorrichtung und eine mit dieser Spracherkennungsvorrichtung ausgerüstete Navigationsvorrichtung.
  • HINTERGRUND DER ERFINDUNG
  • Eine aktuell verwendete Fahrzeugnavigationsvorrichtung hat typischerweise eine Spracheingabeschnittstelle und eine Funktion zum Ausführen einer Spracherkennung hinsichtlich einer Adresse oder eines Einrichtungsnamens, die/der durch einen Benutzer geäußert wurde. Jedoch gibt es einen Fall, in dem es schwierig ist, ein großformatiges Vokabular, so wie Adressen und Einrichtungsnamen, als zu einer Zeit zu erkennende Objekte festzulegen, aufgrund von Einschränkungen, die dem Arbeitsspeicher und der Berechnungsleistung von Hardware auferlegt sind, die als eine Fahrzeugnavigationsvorrichtung installiert ist, und eines Problems mit der Erkennungsrate.
  • Um dieses Problem zu lösen, offenbart Patentreferenz 1 eine Spracherkennungsvorrichtung, die ein Ziel für eine Spracherkennung in Teile aufteilt und einen Erkennungsprozess in mehrfache Schritte aufteilt, um die Schritte jeweils auf den Teilen auszuführen. Diese Vorrichtung teilt das Ziel für eine Spracherkennung in Teile auf und führt wiederum eine Spracherkennung auf den Teilen aus, und, wenn die Erkennungsbewertung (Wahrscheinlichkeit) eines Erkennungsergebnisses gleich oder höher als eine Schwelle ist, bestimmt das Erkennungsergebnis und beendet die Verarbeitung. Wenn es kein Erkennungsergebnis gibt, dessen Erkennungsbewertung gleich oder höher als die oben erwähnte Schwelle ist, bestimmt im Gegensatz dazu die Vorrichtung ein Erkennungsergebnis mit der höchsten Erkennungsbewertung unter den Erkennungsergebnissen, die die Vorrichtung akquiriert hat, als ein endgültiges Erkennungsergebnis. Durch derartiges Aufteilen des Ziels für eine Spracherkennung in Teile kann die Vorrichtung eine Reduzierung der Erkennungsrate verhindern. Weil die Vorrichtung die Verarbeitung beendet, wenn die Erkennungsbewertung eines Erkennungsergebnisses gleich oder höher als die Schwelle wird, kann die Vorrichtung ferner die zum Ausführen der Erkennungsverarbeitung erforderliche Zeit verkürzen.
  • Dokument des verwandten Fachgebiets
  • Patentreferenz
    • Patentreferenz 1: Veröffentlichung der ungeprüften japanischen Patentanmeldung Nr. 2009-230068
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • DURCH DIE ERFINDUNG ZU LÖSENDE PROBLEME
  • In einer durch Patentreferenz 1 dargestellten konventionellen Technologie kann beispielsweise, wenn eine Erkennung auf einem Ziel durch sequenzielles Durchführen unterschiedlicher Spracherkennungsprozesse ausgeführt wird, so wie ein syntaxbasierter und ein diktatbasierter, ein einfacher Vergleich zwischen den Erkennungsbewertungen (Wahrscheinlichkeit) der Erkennungsergebnisse nicht gemacht werden. Deshalb ist es ein Problem, dass, wenn es kein Erkennungsergebnis gibt, dessen Erkennungsbewertung gleich oder höher als die oben erwähnte Schwelle ist, ein Erkennungsergebnis mit der höchsten Erkennungsbewertung unter den Erkennungsergebnissen, die akquiriert worden sind, nicht ausgewählt werden kann, und somit kein Erkennungsergebnis dem Benutzer präsentiert werden kann.
  • Die vorliegende Erfindung wurde gemacht, um die oben erwähnten Probleme zu lösen, und es ist deshalb eine Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung, die durch unterschiedliche Spracherkennungsprozesse akquirierte Erkennungsergebnisse exakt präsentieren kann und eine Reduzierung der zum Ausführen der Erkennungsverarbeitung erforderlichen Zeit erreichen kann, und eine mit dieser Spracherkennungsvorrichtung ausgestattete Navigationsvorrichtung bereitzustellen.
  • MITTEL ZUM LÖSEN DES PROBLEMS
  • Gemäß der vorliegenden Erfindung wird eine Spracherkennungsvorrichtung bereitgestellt mit: einer Akquiriereinheit, die eine digitale Umwandlung eines eingegebenen Sounds ausführt, um Sounddaten zu akquirieren; einem Sounddatenspeicher, der die Sounddaten speichert, die die Akquiriereinheit akquiriert; einer Vielzahl von Spracherkennern, von denen jeder ein Sprachintervall aus den in dem Sounddatenspeicher gespeicherten Sounddaten erfasst, um eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und von denen jeder einen Erkennungsprozess auf einer Grundlage der dadurch extrahierten Eigenschaftsgröße während eines Referenzierens eines Erkennungslexikons ausführt; einem Schalter, der zwischen der Vielzahl von Spracherkennern umschaltet; einer Steuereinrichtung, die das Umschalten zwischen den Spracherkennern durch den Schalter steuert, um durch einen ausgewählten Spracherkenner akquirierte Erkennungsergebnisse zu akquirieren; und einem Selektor, der ein einem Benutzer zu präsentierendes Erkennungsergebnis aus den durch die Steuereinrichtung akquirierten Erkennungsergebnissen auswählt.
  • VORTEILE DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung wird ein Vorteil bereitgestellt, dass sie fähig ist zum exakten Präsentieren von durch verschiedene Spracherkennungsprozesse akquirierten Erkennungsergebnissen und eine Reduzierung der zum Ausführen der Erkennungsverarbeitung erforderlichen Zeit erreichen kann.
  • KURZE BESCHREIBUNG DER FIGUREN
  • 1 ist ein Blockdiagramm, das die Struktur einer Navigationsvorrichtung zeigt, die mit einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung ausgerüstet ist.
  • 2 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1 ausgeführt wird.
  • 3 ist ein Diagramm, das ein Beispiel einer Anzeige eines Erkennungsergebnisses mit einer erstplatzierten Erkennungsbewertung und eines Erkennungsergebnisses mit einer zweitplatzierten Erkennungsbewertung zeigt, die durch jede der Spracherkennungseinheiten akquiriert worden sind.
  • 4 ist ein Diagramm, das ein Beispiel einer Anzeige von Erkennungsergebnissen zeigt, die durch Verwendung eines unterschiedlichen Verfahrens für jede Spracherkennungseinheit ausgewählt werden.
  • 5 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt.
  • 6 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 3 der vorliegenden Erfindung zeigt.
  • 7 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 3 ausgeführt wird.
  • 8 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung zeigt.
  • 9 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 4 ausgeführt wird.
  • 10 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 5 der vorliegenden Erfindung zeigt.
  • 11 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 5 ausgeführt wird.
  • AUSFÜHRUNGSFORMEN DER ERFINDUNG
  • Um diese Erfindung in größerem Detail zu erläutern, werden hier im Nachfolgenden die bevorzugten Ausführungsformen der vorliegenden Erfindung mit Verweis auf die begleitenden Zeichnungen beschrieben werden.
  • Ausführungsform 1
  • 1 ist ein Blockdiagramm, das die Struktur einer Navigationsvorrichtung zeigt, die mit einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung ausgerüstet ist. Die in 1 gezeigte Navigationsvorrichtung gemäß Ausführungsform 1 ist ein Beispiel einer Anwendung der Spracherkennungsvorrichtung gemäß Ausführungsform 1 auf eine fahrzeugmontierte Navigationsvorrichtung, die in einem Fahrzeug montiert ist, das ein sich bewegendes Objekt ist. Die Navigationsvorrichtung ist versehen mit einer Soundakquiriereinheit 1, einer Sounddaten-Speichereinheit 2, einer Spracherkennungseinheit 3, einer Spracherkennungs-Umschalteinheit 4, einer Erkennungssteuereinheit 5, einer Erkennungsergebnis-Auswähleinheit 6 und einer Erkennungsergebnis-Speichereinheit 7 als Komponenten der Spracherkennungsvorrichtung und ist versehen mit einer Anzeigeeinheit 8, einer Navigationsverarbeitungseinheit 9, einer Positionserfassungseinheit 10, einer Kartendatenbank (DB) 11 und einer Eingabeeinheit 12 als zum Ausführen einer Navigation verwendete Komponenten.
  • Die Soundakquiriereinheit 1 führt eine Analog-zu-Digital-Umwandlung auf einem Sound aus, der innerhalb eines vorbestimmten Zeitintervalls empfangen worden ist, der dorthin via ein Mikrofon oder dergleichen eingegeben wird, um Sounddaten in einer gewissen Form zu akquirieren, zum Beispiel eine PCM-(Pulse Code Modulation)Form. Die Sounddaten-Speichereinheit 2 speichert die durch die Soundakquiriereinheit 1 akquirierten Sounddaten. Die Spracherkennungseinheit 3 besteht aus einer Vielzahl von Spracherkennungsteilen (von hier an als erste bis M-te Spracherkennungsteile bezeichnet), jeweils zum Ausführen eines unterschiedlichen Spracherkennungsprozesses, so wie ein syntaxbasierter oder ein diktatbasierter. Jeder der ersten bis M-ten Spracherkennungsteile erfasst ein Sprachintervall, das einer Beschreibung einer Benutzeräußerung entspricht, aus den Sounddaten, die die Soundakquiriereinheit 1 akquiriert hat, gemäß einem Spracherkennungsalgorithmus davon, extrahiert eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der dadurch extrahierten Eigenschaftsgröße aus, während eines Referenzierens eines Erkennungslexikons.
  • Die Spracherkennungs-Umschalteinheit 4 schaltet zwischen den ersten bis M-ten Spracherkennungsteilen gemäß einem Umschaltsteuersignal von der Erkennungssteuereinheit 5 um. Die Erkennungssteuereinheit 5 steuert das Umschalten zwischen den Spracherkennungsteilen durch die Spracherkennungs-Umschalteinheit 4 und akquiriert Erkennungsergebnisse, die durch jeden dadurch ausgewählten Spracherkennungsteil akquiriert worden sind. Die Erkennungsergebnis-Auswähleinheit 6 wählt ein auszugebendes Erkennungsergebnis aus den Erkennungsergebnissen aus, die die Erkennungssteuereinheit 5 akquiriert hat. Die Erkennungsergebnis-Speichereinheit 7 speichert das durch die Erkennungsergebnis-Auswähleinheit 6 ausgewählte Erkennungsergebnis.
  • Die Anzeigeeinheit 8 zeigt das in der Erkennungsergebnis-Speichereinheit 7 gespeicherte Erkennungsergebnis oder ein durch die Navigationsverarbeitungseinheit 9 akquiriertes verarbeitetes Ergebnis an. Die Navigationsverarbeitungseinheit 9 ist eine funktionale Komponente zum Ausführen von Navigationsprozessen, so wie eine Routenbestimmung, Routenführung und eine Kartenanzeige. Zum Beispiel bestimmt die Navigationsverarbeitungseinheit 9 eine Route von einer aktuellen Fahrzeugposition zu einem Bestimmungsort durch Verwenden der aktuellen Position eines Fahrzeugs, wo sie die Positionserfassungseinheit 10 akquiriert hat, des dorthin via die Spracherkennungsvorrichtung gemäß Ausführungsform 1 oder die Eingabeeinheit eingegebenen Bestimmungsortes, und von Kartendaten, die die Kartendatenbank (DB) 11 speichert. Die Navigationsverarbeitungseinheit 9 führt dann eine Routenführung der durch die Routenbestimmung akquirierten Route aus. Die Navigationsverarbeitungseinheit 9 zeigt auch eine Karte eines Gebietes einschließlich der Fahrzeugposition auf der Anzeigeeinheit 8 durch Verwenden der aktuellen Position des Fahrzeugs und von Kartendaten an, die die Karten-DB 11 speichert.
  • Die Positionserfassungseinheit 10 ist eine funktionale Komponente zum Akquirieren der Positionsinformation über die Position des Fahrzeugs (Länge und Breite) von dem Ergebnis einer Analyse von GPS-(Global Positioning System)Funkwellen oder dergleichen. Ferner ist die Karten-DB 11 diejenige, in der die durch die Navigationsverarbeitungseinheit 9 verwendeten Kartendaten registriert sind. Topographische Kartendaten, Wohngebietkartendaten, Straßennetze sind in den Kartendaten enthalten. Die Eingabeeinheit 12 ist eine funktionale Komponente zum Annehmen einer Eingabe, die eine Konfiguration eines Bestimmungsortes durch den Benutzer oder vielfältige Operationen zeigt. Beispielsweise wird die Eingabeeinheit durch ein Touch-Panel realisiert, das auf dem Schirm der Anzeigeeinheit 8 montiert ist, oder dergleichen.
  • Als Nächstes wird die Operation der Navigationsvorrichtung erläutert werden. 2 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 1 ausgeführt wird. Zuerst führt die Soundakquiriereinheit 1 eine A/D-Umwandlung auf einem Sound durch, der innerhalb eines vorbestimmten Zeitintervalls empfangen worden ist, der dorthin via das Mikrofon oder dergleichen eingegeben wird, um Sounddaten in einer gewissen Form, zum Beispiel eine PCM-Form, zu akquirieren (Schritt ST10). Die Sounddaten-Speichereinheit 2 speichert die durch die Soundakquiriereinheit 1 akquirierten Sounddaten (Schritt ST20).
  • Die Erkennungssteuereinheit 5 initialisiert dann eine Variable N auf 1 (Schritt ST30). Die Variable N kann einen sich von 1 bis M erstreckenden Wert haben. Die Erkennungssteuereinheit 5 gibt dann ein Umschaltsteuersignal zum Umschalten der Spracherkennungseinheit 3 zu dem N-ten Spracherkennungsteil an die Spracherkennungs-Umschalteinheit 4 aus. Die Spracherkennungs-Umschalteinheit 4 schaltet die Spracherkennungseinheit 3 zu dem N-ten Spracherkennungsteil gemäß dem Umschaltsteuersignal von der Erkennungssteuereinheit 5 um (Schritt ST40).
  • Der N-te Spracherkennungsteil erfasst ein Sprachintervall entsprechend einer Benutzeräußerung aus den in der Sounddaten-Speichereinheit 2 gespeicherten Sounddaten, extrahiert eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der Eigenschaftsgröße durch, während eines Referenzierens des Erkennungslexikons (Schritt ST50). Die Erkennungssteuereinheit 5 akquiriert die Erkennungsergebnisse von dem N-ten Spracherkennungsteil und vergleicht eine erstplatzierte Erkennungsbewertung (Wahrscheinlichkeit) in den Erkennungsbewertungen der Erkennungsergebnisse mit einer vorbestimmten Schwelle, um zu bestimmen, ob oder ob nicht die erstplatzierte Erkennungsbewertung gleich oder höher als die Schwelle ist (Schritt ST60). Die oben erwähnte vorbestimmte Schwelle wird verwendet, um zu bestimmen, ob oder ob nicht zu einer anderen Spracherkennungseinheit umgeschaltet wird und die Erkennungsverarbeitung fortgesetzt wird, und ist/wird für jeden der ersten bis M-ten Spracherkennungsteile gesetzt.
  • Wenn die erstplatzierte Erkennungsbewertung gleich oder höher als die oben erwähnte Schwelle ist (wenn JA in Schritt ST60), wählt die Erkennungsergebnis-Auswähleinheit 6 ein auszugebendes Erkennungsergebnis aus den Erkennungsergebnisses aus, die durch den N-ten Spracherkennungsteil akquiriert worden sind, das/die die Erkennungssteuereinheit 5 durch Verwendung eines Verfahrens akquiriert, das unten erläutert werden wird (Schritt ST70). Danach zeigt die Anzeigeeinheit 8 das Erkennungsergebnis an, das durch die Erkennungsergebnis-Auswähleinheit 6 ausgewählt wird und das in der Erkennungsergebnis-Speichereinheit 7 gespeichert wird (Schritt ST80). Wenn im Gegensatz dazu die erstplatzierte Erkennungsbewertung niedriger als die oben erwähnte Schwelle ist (wenn NEIN im Schritt ST60), wählt die Erkennungsergebnis-Auswähleinheit 6 ein auszugebendes Erkennungsergebnis aus den Erkennungsergebnissen aus, die durch den N-ten Spracherkennungsteil akquiriert worden sind, das/die die Erkennungssteuereinheit 5 akquiriert durch Verwendung eines Verfahrens, das unten erläutert werden wird (Schritt ST90).
  • Die Erkennungsergebnis-Auswähleinheit 6 speichert dann das ausgewählte Erkennungsergebnis in der Erkennungsergebnis-Speichereinheit 7 (Schritt ST100). Wenn die Erkennungsergebnis-Auswähleinheit 6 das Erkennungsergebnis in der Erkennungsergebnis-Speichereinheit 7 speichert, inkrementiert die Erkennungssteuereinheit 5 die Variable N um 1 (Schritt ST110) und bestimmt, ob der Wert der Variable N die Gesamtanzahl M der Spracherkennungsteile überschreitet (Schritt ST120).
  • Wenn der Wert der Variable N die Gesamtanzahl M der Spracherkennungsteile überschreitet (wenn JA in Schritt ST120), gibt die Anzeigeeinheit 8 die Erkennungsergebnisse aus, die durch die ersten bis M-ten Spracherkennungsteile akquiriert worden sind, die in der Erkennungsergebnis-Speichereinheit 7 gespeichert sind (Schritt ST130). Die Anzeigeeinheit 8 kann die Erkennungsergebnisse in der Reihenfolge ausgeben, in der die Erkennungsergebnisse durch die Vielzahl von Spracherkennungsteilen akquiriert worden sind. Wenn der Wert der Variable N gleich oder kleiner als die Gesamtanzahl M der Spracherkennungsteile ist (wenn NEIN im Schritt ST120), kehrt die Spracherkennungsvorrichtung zu dem Prozess von Schritt ST40 zurück. Als ein Ergebnis wiederholt die Spracherkennungsvorrichtung die oben erwähnten Prozesse durch Verwendung des Spracherkennungsteils, zu dem die Spracherkennungs-Umschalteinheit die Spracherkennungseinheit umschaltet.
  • Hier werden im Nachfolgenden Schritte ST70 und ST90 durch Angabe eines konkreten Beispiels erläutert werden. Die Erkennungsergebnis-Auswähleinheit 6 wählt ein Erkennungsergebnis mit einer höheren Bewertung aus den Erkennungsergebnissen aus, die die Erkennungssteuereinheit 5 akquiriert. Zum Beispiel kann das Auswahlverfahren eines zum Auswählen eines Erkennungsergebnisses mit einer erstplatzierten Erkennungsbewertung sein, wie oben erwähnt. Als eine Alternative kann das Auswahlverfahren eines zum Auswählen sämtlicher der Erkennungsergebnisse sein, die die Erkennungssteuereinheit 5 akquiriert. Das Auswahlverfahren kann alternativ eines zum Auswählen von Erkennungsergebnissen einschließlich des Erkennungsergebnisses mit der erstplatzierten Erkennungsbewertung bis zu einem Erkennungsergebnis mit einer X-t platzierten Erkennungsbewertung sein. Als eine Alternative kann das Auswahlverfahren eines zum Auswählen von einem oder mehreren Erkennungsergebnissen sein, die jeweils eine Erkennungsbewertung haben, deren Differenz bezüglich der erstplatzierten Erkennungsbewertung gleich oder kleiner als ein vorbestimmter Wert ist. Außerdem kann ein Erkennungsergebnis, dessen Erkennungsbewertung geringer als eine vorbestimmte Schwelle ist, ausgeschlossen werden, selbst wenn das Erkennungsergebnis in den Erkennungsergebnissen einschließlich von dem Erkennungsergebnis mit der erstplatzierten Erkennungsbewertung bis zu dem Erkennungsergebnis mit der X-t platzierten Erkennungsbewertung enthalten ist, oder das Erkennungsergebnis ist in dem einen oder den mehreren Erkennungsergebnissen enthalten, die jeweils eine Erkennungsbewertung haben, deren Differenz bezüglich der erstplatzierten Erkennungsbewertung gleich oder kleiner als der vorbestimmte Wert ist.
  • 3 ist ein Diagramm, das ein Beispiel einer Anzeige eines Erkennungsergebnisses mit einer erstplatzierten Erkennungsbewertung und eines Erkennungsergebnisses mit einer zweitplatzierten Erkennungsbewertung zeigt, die durch die jeweiligen Spracherkennungsteile akquiriert werden. In 3 bezeichnet ”Spracherkennungsprozess 1” zum Beispiel ein durch den ersten Spracherkennungsteil akquiriertes Erkennungsergebnis, und ”Spracherkennungsprozess 2” bezeichnet zum Beispiel ein durch den zweiten Spracherkennungsteil akquiriertes Erkennungsergebnis. Dasselbe trifft für ”Spracherkennungsprozess 3”, ”Spracherkennungsprozess 4” usw. zu. Die Erkennungsergebnisse, die dasjenige mit der erstplatzierten Erkennungsbewertung (Wahrscheinlichkeit) bis zu demjenigen mit der zweitplatzierten Erkennungsbewertung (Wahrscheinlichkeit) enthalten, werden in Reihenfolge für jeden der Spracherkennungsteile angezeigt.
  • 4 ist ein Diagramm, das ein Beispiel einer Anzeige von Erkennungsergebnissen zeigt, die durch Verwendung eines unterschiedlichen Verfahrens für jeden der Spracherkennungsteile ausgewählt werden. In 4 werden für den ersten Spracherkennungsteil (”Spracherkennungsprozess 1”) die Erkennungsergebnisse, die das Erkennungsergebnis mit der erstplatzierten Erkennungsbewertung bis zu dem Erkennungsergebnis mit der zweitplatzierten Erkennungsbewertung enthalten, ausgewählt und angezeigt. Ferner werden für den zweiten Spracherkennungsteil (”Spracherkennungsprozess 2”) sämtliche der Erkennungsergebnisse auswählt und angezeigt. Somit kann sich das Auswahlverfahren zum Auswählen von Erkennungsergebnissen für jeden der Spracherkennungsteile in Schritten ST70 und ST90 unterscheiden.
  • Wenn der Benutzer ein auf der Anzeigeeinheit 8 angezeigtes Erkennungsergebnis beispielsweise durch Verwendung der Eingabeeinheit 12 auswählt, liest die Spracherkennungsvorrichtung das Ergebnis der Erkennung des durch den Benutzer geäußerten Bestimmungsortes von der Erkennungsergebnis-Speichereinheit 7 und gibt dann das Erkennungsergebnis an die Navigationsverarbeitungseinheit 9 aus. Die Navigationsverarbeitungseinheit 9 bestimmt eine Route von der aktuellen Fahrzeugposition zu dem Bestimmungsort durch Verwendung von beispielsweise der aktuellen Position des Fahrzeugs, die die Positionserfassungseinheit 10 akquiriert, des Ergebnisses der Erkennung des von der Erkennungsergebnis-Speichereinheit 7 gelesenen Bestimmungsortes, und von in der Karten-DB 11 gespeicherten Kartendaten und stellt eine Routenführung hinsichtlich der dadurch akquirierten Route für den Benutzer bereit.
  • Wie oben erwähnt, enthält die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1: die Soundakquiriereinheit 1 zum Ausführen einer digitalen Umwandlung eines eingegebenen Sounds, um Sounddaten zu akquirieren; die Sounddaten-Speichereinheit 2 zum Speichern der Sounddaten, die die Soundakquiriereinheit 1 akquiriert; die ersten bis M-ten Spracherkennungsteile, jeweils zum Erfassen eines Sprachintervalls aus den in der Sounddaten-Speichereinheit 2 gespeicherten Sounddaten, um eine Eigenschafsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und jeweils zum Ausführen eines Erkennungsprozesses auf der Grundlage der dadurch extrahierten Eigenschaftsgröße, während eines Referenzierens eines Erkennungslexikons; die Spracherkennungs-Umschalteinheit 4 zum Umschalten zwischen den ersten bis M-ten Spracherkennungsteilen; die Erkennungssteuereinheit 5 zum Steuern des Umschaltens zwischen den Spracherkennungsteilen durch die Spracherkennungs-Umschalteinheit 4, um durch einen ausgewählten Spracherkennungsteil akquirierte Erkennungsergebnisse zu akquirieren; und die Erkennungsergebnis-Auswähleinheit 6 zum Auswählen eines einem Benutzer zu präsentierenden Erkennungsergebnisses aus den durch die Erkennungssteuereinheit 5 akquirierten Erkennungsergebnissen. Weil die Spracherkennungsvorrichtung auf diese Weise konstruiert ist, kann, selbst in einem Fall, in dem ein einfacher Vergleich zwischen den Erkennungsbewertungen von Erkennungsergebnissen nicht gemacht werden kann, weil die Erkennungsergebnisse durch unterschiedliche Spracherkennungsprozesse akquiriert werden, und somit ein Erkennungsergebnis mit der höchsten Erkennungsbewertung nicht bestimmt werden kann, die Spracherkennungsvorrichtung ein Erkennungsergebnis, akquiriert durch jeden der Spracherkennungsprozesse, dem Benutzer präsentieren.
  • Ausführungsform 2
  • 5 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung zeigt. Wie in 5 gezeigt, ist die Spracherkennungsvorrichtung gemäß Ausführungsform 2 versehen mit einer Soundakquiriereinheit 1, einer Sounddaten-Speichereinheit 2, einer Spracherkennungseinheit 3, einer Spracherkennungs-Umschalteinheit 4, einer Erkennungssteuereinheit 5, einer Erkennungsergebnis-Auswähleinheit 6A, einer Erkennungsergebnis-Speichereinheit 7 und einer Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13. Die Erkennungsergebnis-Auswähleinheit 6A wählt ein auszugebendes Erkennungsergebnis aus durch die Erkennungssteuereinheit 5 akquirierten Erkennungsergebnissen gemäß einem Auswahlverfahren-Steuersignal von der Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13 aus. Die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13 ist eine funktionale Komponente, die auf eine Spezifizierung eines Auswahlverfahrens zum Auswählen eines Erkennungsergebnisses reagiert, das die Erkennungsergebnis-Auswähleinheit 6A verwendet, zum Ausgeben des Auswahlverfahren-Steuersignals, um ein Auswahlverfahren, das durch einen Benutzer spezifiziert worden ist für jeden der ersten bis M-ten Spracherkennungsteile, an die Erkennungsergebnis-Auswähleinheit 6A. In 5 sind dieselben Komponenten wie diese in 1 gezeigten mit denselben Bezugszeichen bezeichnet, und die Erläuterung der Komponenten wird hier im Nachfolgenden weggelassen werden.
  • Als Nächstes wird die Operation der Spracherkennungsvorrichtung erläutert werden. Die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13 zeigt einen Schirm zur Spezifizierung eines Auswahlverfahrens zum Auswählen eines Erkennungsergebnisses auf einer Anzeigeeinheit 8 an, um eine HMI (Human Machine Interface bzw. Mensch-Maschine-Schnittstelle) zum Annehmen einer Spezifizierung durch einen Benutzer bereitzustellen.
  • Zum Beispiel zeigt die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit einen Schirm zur Spezifizierung an, der dem Benutzer ermöglicht, jeden der ersten bis M-ten Spracherkennungsteile in eine Zuordnung mit einem Auswahlverfahren durch die Benutzeroperation zu bringen. Als ein Ergebnis setzt die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit ein für jeden der Spracherkennungsteile ausgewähltes Auswahlverfahren für die Erkennungsergebnis-Auswähleinheit 6A. Der Benutzer kann ein Auswahlverfahren für jeden der Spracherkennungsteile gemäß den Benutzerbedürfnissen spezifizieren und kann auch ein Auswahlverfahren für jeden der Spracherkennungsteile gemäß dem Benutzerstatus der Spracherkennungsvorrichtung spezifizieren. In einem Fall, in dem ein Wichtigkeitsgrad für jeden der Spracherkennungsteile voreingestellt ist, kann außerdem die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit ein Auswahlverfahren derart spezifizieren, dass eine größere Anzahl von Erkennungsergebnissen aus den Erkennungsergebnissen ausgewählt wird, die durch einen Spracherkennungsteil mit einem höheren Wichtigkeitsgrad akquiriert worden sind. Die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit kann eine Festlegung machen, um irgendein Auswahlverfahren für einen gewissen Spracherkennungsteil nicht zu spezifizieren. Genauer genommen kann die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit eine Festlegung machen, nicht irgendein durch den Spracherkennungsteil akquiriertes Erkennungsergebnis auszugeben.
  • Eine durch die Spracherkennungsvorrichtung gemäß Ausführungsform 2 ausgeführte Spracherkennungsverarbeitung ist dieselbe wie die in dem Flussdiagramm von 2 gezeigte, die in der oben erwähnten Ausführungsform 1 erläutert worden ist. Jedoch wählt in Schritten ST70 und ST90 die Erkennungsergebnis-Auswähleinheit 6A ein Erkennungsergebnis gemäß dem Auswahlverfahren aus, das die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13 festlegt. Aus den Erkennungsergebnissen, die die Erkennungssteuereinheit 5 von einem ersten Spracherkennungsteil akquiriert, wählt zum Beispiel die Erkennungsergebnis-Auswähleinheit ein Erkennungsergebnis mit einer erstplatzierten Erkennungsbewertung aus, und wählt aus den Erkennungsergebnissen, die die Erkennungssteuereinheit 5 von einem zweiten Spracherkennungsteil akquiriert, sämtliche von diesen aus. Gemäß Ausführungsform 2 wird es somit dem Benutzer ermöglicht, ein Auswahlverfahren zum Auswählen eines Erkennungsergebnisses für jeden der Spracherkennungsteile zu bestimmen. Andere Prozesse sind dieselben wie diese gemäß der oben erwähnten Ausführungsform 1.
  • Wie oben erwähnt, enthält die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 die Erkennungsergebnis-Auswahlverfahren-Änderungseinheit 13 zum Annehmen einer Spezifizierung eines Auswahlverfahrens zum Auswählen eines einem Benutzer zu präsentierenden Erkennungsergebnisses aus Erkennungsergebnissen, die die Erkennungssteuereinheit 5 akquiriert, und zum Ändern des Auswahlverfahrens zum Auswählen eines Erkennungsergebnisses, das die Erkennungsergebnis-Auswähleinheit 6A verwendet, gemäß dem spezifizierten Auswahlverfahren. Weil die Spracherkennungsvorrichtung derart konstruiert ist, ermöglicht die Spracherkennungsvorrichtung dem Benutzer, das Auswahlverfahren zum Auswählen eines Erkennungsergebnisses zu spezifizieren, das die Erkennungsergebnis-Auswähleinheit 6A verwendet, und kann das Ergebnis eines Spracherkennungsprozesses, von dem der Benutzer denkt, dass es optimal ist, beispielsweise gemäß dem Benutzungsstatus davon, dem Benutzer präsentieren.
  • Ausführungsform 3
  • 6 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 3 der vorliegenden Erfindung zeigt. Wie in 6 gezeigt, ist die Spracherkennungsvorrichtung gemäß Ausführungsform 3 versehen mit einer Soundakquiriereinheit 1, einer Sounddaten-Speichereinheit 2A, einer Spracherkennungseinheit 3, einer Spracherkennungs-Umschalteinheit 4, einer Erkennungssteuereinheit 5, einer Erkennungsergebnis-Auswähleinheit 6, einer Erkennungsergebnis-Speichereinheit 7 und einer Sprachintervall-Erfassungseinheit 14. In 6 sind dieselben Komponenten wie diese in 1 gezeigten mit denselben Bezugszeichen bezeichnet, und die Erläuterung der Komponenten wird hier im Nachfolgenden weggelassen werden.
  • Die Sounddaten-Speichereinheit 2A speichert Sounddaten hinsichtlich eines Sounds, der innerhalb eines Sprachintervalls empfangen worden ist, das durch die Sprachintervall-Erfassungseinheit 14 erfasst wird. Ferner erfasst die Sprachintervall-Erfassungseinheit 14 Sounddaten hinsichtlich eines Sounds, der innerhalb eines Sprachintervalls empfangen worden ist, das einer Beschreibung einer Benutzeräußerung entspricht, von Sounddaten, die die Soundakquiriereinheit 1 akquiriert. Jeder der ersten bis M-ten Spracherkennungsteile extrahiert eine Eigenschaftsgröße der in der Sounddaten-Speichereinheit 2A gespeicherten Sounddaten und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der dadurch extrahierten Eigenschaftsgröße aus, während eines Referenzierens eines Erkennungslexikons. Somit führt in Ausführungsform 3 jeder der ersten bis M-ten Spracherkennungsteile nicht den Sprachintervall-Erfassungsprozess individuell aus.
  • Als Nächstes wird die Operation der Spracherkennungsvorrichtung erläutert werden. 7 ist ein Flussdiagramm, in dem der Fluss des Spracherkennungsprozesses gemäß der Spracherkennungsvorrichtung gemäß Ausführungsform 3 gezeigt ist. Zuerst führt die Soundakquiriereinheit 1 eine A/D-Umwandlung auf einem Sound aus, der innerhalb eines gewissen Zeitintervalls empfangen worden ist, das dorthin via ein Mikrofon oder dergleichen eingegeben wird, um Sounddaten in einer gewissen Form, beispielweise eine PCM-Form, zu akquirieren (Schritt ST210). Die Sprachintervall-Erfassungseinheit 14 erfasst dann Sounddaten hinsichtlich eines Sounds, der innerhalb eines Intervalls empfangen worden ist, das einer Beschreibung einer Benutzeräußerung entspricht, von den Sounddaten, die die Soundakquiriereinheit 1 akquiriert (Schritt ST220). Die Sounddaten-Speichereinheit 2A speichert die durch die Sprachintervall-Erfassungseinheit 14 erfassten Sounddaten (Schritt ST230).
  • Die Erkennungssteuereinheit 5 initialisiert dann eine Variable N auf 1 (Schritt ST240). Die Erkennungssteuereinheit 5 gibt dann ein Umschaltsteuersignal zum Umschalten der Spracherkennungseinheit 3 zu dem N-ten Spracherkennungsteil an die Spracherkennungs-Umschalteinheit 4 aus. Die Spracherkennungs-Umschalteinheit 4 schaltet die Spracherkennungseinheit 3 zu den N-ten Spracherkennungsteil gemäß dem Umschaltsteuersignal von der Erkennungsteuereinheit 5 um (Schritt ST250).
  • Der N-te Spracherkennungsteil extrahiert eine Eigenschaftsgröße aus den Sounddaten hinsichtlich eines Sounds, der innerhalb eines jeweiligen Sprachintervalls empfangen worden ist, das in der Sounddaten-Speichereinheit 2A gespeichert ist, und führt den Erkennungsprozess auf den Sounddaten auf der Grundlage der Eigenschaftsgröße aus, während eines Referenzierens des Erkennungslexikons (Schritt ST260). Weil Prozesse nachfolgender Schritte ST270 bis ST340 dieselben wie diese der in 2 gezeigten Schritte ST60 bis ST130 von der oben erwähnten Ausführungsform 1 sind, wird die Erläuterung der Prozesse hier im Nachfolgenden weggelassen werden.
  • Wie oben erwähnt, enthält die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 3: die Soundakquiriereinheit 1 zum Ausführen einer digitalen Umwandlung eines eingegebenen Sounds, um Sounddaten zu akquirieren; die Sprachintervall-Erfassungseinheit 14 zum Erfassen eines Sprachintervalls, das einer Benutzeräußerung entspricht, von den Sounddaten, die die Soundakquiriereinheit 1 akquiriert; die Sounddaten-Speichereinheit 2A zum Speichern von Sounddaten hinsichtlich jedes Sprachintervalls, das die Sprachintervall-Erfassungseinheit 14 erfasst; die ersten bis M-ten Spracherkennungsteile, jeweils zum Extrahieren einer Eigenschaftsgröße der in der Sounddaten-Speichereinheit 2A gespeicherten Sounddaten, und jeweils zum Ausführen eines Erkennungsprozesses auf der Grundlage der dadurch extrahierten Eigenschaftsgröße, während eines Referenzierens des Erkennungslexikons; die Spracherkennungs-Umschalteinheit 4 zum Umschalten zwischen den ersten bis M-ten Spracherkennungsteilen; die Erkennungssteuereinheit 5 zum Steuern des Umschaltens zwischen den Spracherkennungsteilen durch die Spracherkennungs-Umschalteinheit 4, um durch einen ausgewählten Spracherkennungsteil akquirierte Erkennungsergebnisse zu akquirieren; und die Erkennungsergebnis-Auswähleinheit 6 zum Auswählen eines einem Benutzer zu präsentierenden Erkennungsergebnisses aus den Erkennungsergebnissen, die die Erkennungssteuereinheit 5 akquiriert. Weil die Spracherkennungsvorrichtung derart konstruiert ist, führt jeder der ersten bis M-ten Spracherkennungsteile nicht die Sprachintervallerfassung aus. Deshalb kann die zum Ausführen des Erkennungsprozesses erforderliche Zeit reduziert werden.
  • Ausführungsform 4
  • 8 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung zeigt. Wie in 8 gezeigt, ist die Spracherkennungsvorrichtung gemäß Ausführungsform 4 versehen mit einer Soundakquiriereinheit 1, einer Sounddaten-Speichereinheit 2, einer Spracherkennungseinheit 3A, einer Spracherkennungs-Umschalteinheit 4, einer Erkennungssteuereinheit 5, einer Erkennungsergebnis-Auswähleinheit 6 und einer Erkennungsergebnis-Speichereinheit 7. In 8 sind dieselben Komponenten wie diese in 1 gezeigten mit denselben Bezugszeichen bezeichnet, und die Erläuterung der Komponenten wird hier im Nachfolgenden weggelassen werden.
  • In der Spracherkennungseinheit 3A führt jeder der ersten bis M-ten Spracherkennungsteile einen Erkennungsprozess durch Verwenden eines Spracherkennungsverfahrens mit einem unterschiedlichen Grad einer Erkennungsgenauigkeit in einem Spracherkennungsalgorithmus davon aus. Während der Spracherkennungsalgorithmus, den ein N-ter (N = 1 bis M) Spracherkennungsteil verwendet, nicht geändert wird, führt genauer genommen der N-te Spracherkennungsteil ein Spracherkennungsverfahren mit einem unterschiedlichen Genauigkeitsgrad aus, in dem eine zu dem Grad der Spracherkennungsgenauigkeit beitragende Variable geändert wird. Zum Beispiel führt jeder der Spracherkennungsteile den Erkennungsprozess durch Verwendung sowohl eines Spracherkennungsverfahrens N(a), das einen niedrigen Erkennungsgenauigkeitsgrad hat, aber eine kurze Verarbeitungszeit hat, als auch ein Spracherkennungsverfahren N(b) aus, das einen hohen Erkennungsgenauigkeitsgrad hat, aber eine lange Verarbeitungszeit hat. Als die zu der Genauigkeit der Spracherkennung beitragende Variable können eine Rahmenperiode zu der Zeit eines Extrahierens einer Eigenschaftsgröße eines Sprachintervalls, die Anzahl von Mischkomponenten in akustischen Modellen, die Anzahl akustischer Modelle oder eine Kombination mancher dieser Variablen bereitgestellt sein.
  • Ein Spracherkennungsverfahren mit einem niedrigen Grad einer Erkennungsgenauigkeit wird durch die oben erwähnte Variable definiert, die auf die folgende Weise modifiziert wird: die Rahmenperiode zu der Zeit eines Extrahierens einer Eigenschaftsgröße eines Sprachintervalls, die/das länger als ein vorbestimmter Wert gesetzt werden soll, die Anzahl von Mischkomponenten in akustischen Modellen, die auf einen Wert kleiner als ein vorbestimmter Wert verringert wird, die Anzahl akustischer Modelle, die auf einen Wert kleiner als ein vorbestimmter Wert verringert werden, oder eine Kombination mancher dieser Variablen. Im Gegensatz dazu wird ein Spracherkennungsverfahren mit einem hohen Grad einer Erkennungsgenauigkeit durch die oben erwähnte Variable definiert, die auf die folgende Weise modifiziert wird: die Rahmenperiode zu der Zeit eines Extrahierens einer Eigenschaftsgröße eines Sprachintervalls, das/die gesetzt wird, um gleich oder länger als der oben erwähnte vorbestimmte Wert zu sein, die Anzahl von Mischkomponenten in akustischen Modellen, die auf einen Wert gleich oder größer als der oben erwähnte vorbestimmte Wert erhöht wird, die Anzahl akustischer Modelle, die auf einen Wert gleich oder größer als der oben erwähnte vorbestimmte Wert erhöht wird, oder eine Kombination mancher dieser Variablen. Es wird einem Benutzer ermöglicht, die oben erwähnte zu dem Grad der Erkennungsgenauigkeit des Spracherkennungsverfahrens beitragende Variable zu setzen, das/die jeder der ersten bis M-ten Spracherkennungsteile verwendet, wo es zweckgemäß ist, um den Erkennungsgenauigkeitsgrad zu bestimmen.
  • Als Nächstes wird die Operation der Spracherkennungsvorrichtung erläutert werden. 9 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 4 ausgeführt wird. Zuerst führt die Soundakquiriereinheit 1 eine A/D-Umwandlung eines Sounds aus, der innerhalb eines vorbestimmten Zeitintervalls empfangen worden ist, der/das dorthin via ein Mikrofon oder dergleichen eingegeben wird, um Sounddaten in einer gewissen Form zu akquirieren, zum Beispiel eine PCM-Form (Schritt ST410). Die Sounddaten-Speichereinheit 2 speichert die durch die Soundakquiriereinheit 1 akquirierten Sounddaten (Schritt ST420).
  • Die Erkennungssteuereinheit 5 initialisiert dann eine Variable N auf 1 (Schritt ST430). Die Variable N kann einen von 1 bis M rangierenden Wert haben. Die Erkennungssteuereinheit 5 gibt dann ein Umschaltsteuersignal zum Umschalten der Spracherkennungseinheit 3A zu dem N-ten Spracherkennungsteil an die Spracherkennungs-Umschalteinheit 4 aus. Die Spracherkennungs-Umschalteinheit 4 schaltet die Spracherkennungseinheit 3A zu dem N-ten Spracherkennungsteil gemäß dem Umschaltsteuersignal von der Erkennungssteuereinheit 5 um (Schritt ST440).
  • Der N-te Spracherkennungsteil erfasst ein Sprachintervall, das einer Benutzeräußerung entspricht, von den in der Sounddaten-Speichereinheit 2 gespeicherten Sounddaten, extrahiert eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der Eigenschaftsgröße aus, während eines Referenzierens eines Erkennungslexikons, durch Verwendung eines Spracherkennungsverfahrens mit einem niedrigen Erkennungsgenauigkeitsgrad (Schritt ST450). Wenn ein durch die Erkennungsergebnis-Auswähleinheit 6 akquiriertes Erkennungsergebnis dann in der Erkennungsergebnis-Speichereinheit 7 gespeichert ist/wird, inkrementiert die Erkennungssteuereinheit 5 die Variable N um 1 (Schritt ST460), und bestimmt, ob der Wert der Variable N die Gesamtanzahl M der Spracherkennungsteile überschreitet (Schritt ST470). Wenn der Wert der Variable N gleich oder kleiner als die Gesamtanzahl M der Spracherkennungsteile ist (wenn NEIN im Schritt ST470), kehrt die Spracherkennungsvorrichtung zu dem Prozess von Schritt ST440 zurück. Die Spracherkennungsvorrichtung wiederholt dann die oben erwähnten Prozesse durch Verwendung des Spracherkennungsteils, zu dem die Spracherkennungs-Umschalteinheit die Spracherkennungseinheit umschaltet.
  • Wenn im Gegensatz dazu der Wert der Variable N die Gesamtanzahl M der Spracherkennungsteile überschreitet (wenn JA im Schritt ST470), akquiriert die Erkennungssteuereinheit 5 Erkennungsergebnisse von dem N-ten Spracherkennungsteil, vergleicht eine erstplatzierte Erkennungsbewertung (Wahrscheinlichkeit) in den Erkennungsbewertungen der Erkennungsergebnisse mit einer vorbestimmten Schwelle und bestimmt, ob es K Spracherkennungsteile gibt, von denen jeder eine erstplatzierte Erkennungsbewertung gleich oder höher als die Schwelle bereitstellt (Schritt ST480). Als ein Ergebnis grenzt die Spracherkennungsvorrichtung die ersten bis M-ten Spracherkennungsteile auf K Spracherkennungsteile L(1) bis L(K) ein, von denen jeder eine erstplatzierte Erkennungsbewertung gleich oder höher als die Schwelle durch Verwendung eines Spracherkennungsverfahrens mit einem niedrigen Erkennungsgenauigkeitsgrad bereitstellt.
  • Die Erkennungssteuereinheit 5 initialisiert eine Variable n auf 1 (Schritt ST490). n ist die Variable mit einem von 1 bis K rangierenden Wert. Als Nächstes gibt die Erkennungssteuereinheit 5 ein Umschaltsteuersignal zum Umschalten zu dem Spracherkennungsteil L(n) unter den Spracherkennungsteilen L(1) bis L(K), ausgewählt im Schritt ST480, an die Spracherkennungs-Umschalteinheit 4 aus. Die Spracherkennungs-Umschalteinheit 4 schaltet die Spracherkennungseinheit 3A zu dem Spracherkennungsteil L(n) gemäß dem Umschaltsteuersignal von der Erkennungssteuereinheit 5 um (Schritt ST500).
  • Der Spracherkennungsteil L(n) erfasst ein Sprachintervall, das einer Benutzeräußerung entspricht, von den in der Sounddaten-Speichereinheit 2 gespeicherten Sounddaten, extrahiert eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der Eigenschaftsgröße aus, während eines Referenzierens des Erkennungslexikons, durch Verwenden eines Spracherkennungsverfahrens mit einem hohen Erkennungsgenauigkeitsgrad (Schritt ST510). Jedes Mal, wenn der Spracherkennungsteil L(n) den Erkennungsprozess abschließt, akquiriert die Erkennungssteuereinheit 5 die durch den Spracherkennungsteil akquirierten Erkennungsergebnisse.
  • Als Nächstes wählt die Erkennungsergebnis-Auswähleinheit 6 ein auszugebendes Erkennungsergebnis aus den Erkennungsergebnissen aus, die durch den N-ten Spracherkennungsteil akquiriert worden sind, was die Erkennungssteuereinheit 5 akquiriert durch Verwenden desselben Verfahrens wie dem gemäß der oben erwähnten Ausführungsform 1 (Schritte ST70 und ST90 von 2) (Schritt ST520). Die Erkennungsergebnis-Auswähleinheit 6 speichert das ausgewählte Erkennungsergebnis in der Erkennungsergebnis-Speichereinheit 7 (Schritt ST530).
  • Wenn das Erkennungsergebnis in der Erkennungsergebnis-Speichereinheit 7 durch die Erkennungsergebnis-Auswähleinheit 6 gespeichert wird, inkrementiert die Erkennungssteuereinheit 5 die Variable n um 1 (Schritt ST540) und bestimmt, ob der Wert der Variable n die Anzahl K der Spracherkennungsteile überschreitet, die im Schritt ST480 ausgewählt worden ist/sind (Schritt ST550). Wenn der Wert der Variable n gleich oder kleiner als die Anzahl K der Spracherkennungsteile ist, die im Schritt ST480 ausgewählt worden ist/sind (wenn NEIN im Schritt ST550), kehrt die Spracherkennungsvorrichtung zu dem Prozess von Schritt ST500 zurück. Als ein Ergebnis wiederholt die Spracherkennungsvorrichtung die oben erwähnten Prozesse durch Verwendung des Spracherkennungsteils, zu dem die Spracherkennungs-Umschalteinheit die Spracherkennungseinheit umschaltet.
  • Wenn der Wert der Variable n die Anzahl K der Spracherkennungsteile überschreitet, die im Schritt ST480 ausgewählt worden ist/sind (wenn JA im Schritt ST550), gibt eine Anzeigeeinheit 8 die Erkennungsergebnisse aus, die durch die Spracherkennungsteile L(1) bis L(K) akquiriert worden sind, die in der Erkennungsergebnis-Speichereinheit 7 gespeichert sind (Schritt ST130). Die Anzeigeeinheit 8 kann die Erkennungsergebnisse in der Reihenfolge ausgeben, in der die Erkennungsergebnisse durch die Spracherkennungsteile L(1) bis L(K) akquiriert worden sind.
  • Wie oben erwähnt, kann in der Spracherkennungsvorrichtung gemäß dieser Ausführungsform 4 jeder der ersten bis M-ten Spracherkennungsteile der Spracherkennungseinheit 3A einen Erkennungsprozess mit einem unterschiedlichen Genauigkeitsgrad ausführen, und die Erkennungssteuereinheit 5 veranlasst jeden der Spracherkennungsteile, den Erkennungsprozess mit einem schrittweise ansteigenden Genauigkeitsgrad auszuführen, während eines Eingrenzens der Spracherkennungsteile, von denen jeder den Erkennungsprozess ausführt, auf der Grundlage der Erkennungsbewertungen der Erkennungsergebnisse, die durch die Spracherkennungsteile akquiriert worden sind. Weil die Spracherkennungsvorrichtung auf diese Weise konstruiert ist, führt zum Beispiel durch Verwendung einer Kombination eines Spracherkennungsverfahrens, das einen niedrigen Erkennungsgenauigkeitsgrad hat, aber eine kurze Verarbeitungszeit hat, und eines Spracherkennungsverfahrens, das einen hohen Erkennungsgenauigkeitsgrad hat, aber eine lange Verarbeitungszeit hat, die Spracherkennungsvorrichtung eine Spracherkennung durch Verwendung des Verfahrens mit einem niedrigen Genauigkeitsgrad beim Durchführen von jedem einer Vielzahl von Spracherkennungsprozessen aus und führt dann eine Spracherkennung hoher Genauigkeit beim Durchführen eines Spracherkennungsprozesses aus, der eine hohe Erkennungsbewertung unter der Vielzahl von Spracherkennungsprozessen bereitstellt. Weil die Spracherkennungsvorrichtung nicht eine Spracherkennung hoher Genauigkeit beim Durchführen von jedem all der Erkennungsprozesse ausführen muss, ist sie dadurch als ein Ergebnis fähig, die Zeit zu reduzieren, die zum Ausführen der gesamten Erkennungsverarbeitung erforderlich ist.
  • Ausführungsform 5
  • 10 ist ein Blockdiagramm, das die Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 5 der vorliegenden Erfindung zeigt. Wie in 10 gezeigt, ist die Spracherkennungsvorrichtung gemäß Ausführungsform 5 versehen mit einer Soundakquiriereinheit 1, einer Sounddaten-Speichereinheit 2, einer Spracherkennungseinheit 3, einer Spracherkennungs-Umschalteinheit 4, einer Erkennungssteuereinheit 5 und einer Erkennungsergebnis-Bestimmungseinheit 15. Die Erkennungsergebnis-Bestimmungseinheit 15 nimmt eine Auswahl eines Erkennungsergebnisses an, die durch einen Benutzer auf der Grundlage von Kandidaten für Erkennungsergebnisse gemacht wird, die auf einer Anzeigeeinheit 8 angezeigt sind, und bestimmt den ausgewählten Kandidaten für ein Erkennungsergebnis als ein endgültiges Erkennungsergebnis. Zum Beispiel zeigt die Erkennungsergebnis-Bestimmungseinheit 15 einen Schirm zur Auswahl eines Erkennungsergebnisses auf dem Schirm der Anzeigeeinheit 8 an und stellt eine HMI bereit, um dem Benutzer zu ermöglichen, einen Kandidaten für ein Erkennungsergebnis auf der Grundlage des Schirms zur Auswahl eines Erkennungsergebnisses durch Verwenden einer Eingabeeinheit, so wie ein Touch-Panel, eine harte Taste, oder Schalter, auszuwählen. In 10 sind dieselben Komponenten wie diese in 1 gezeigten mit denselben Bezugszeichen bezeichnet, und die Erläuterung der Komponenten wird hier im Nachfolgenden weggelassen werden.
  • Als Nächstes wird die Operation der Spracherkennungsvorrichtung erläutert werden. 11 ist ein Flussdiagramm, das einen Fluss eines Spracherkennungsprozesses zeigt, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 5 ausgeführt wird. Zuerst führt die Soundakquiriereinheit 1 eine A/D-Umwandlung auf einem Sound durch, der innerhalb eines vorbestimmten Zeitintervalls empfangen worden ist, der/das dorthin via ein Mikrofon oder dergleichen eingegeben wird, um Sounddaten in einer gewissen Form zu akquirieren, zum Beispiel eine PCM-Form (Schritt ST610). Die Sounddaten-Speichereinheit 2 speichert die durch die Soundakquiriereinheit 1 akquirierten Sounddaten (Schritt ST620).
  • Die Erkennungssteuereinheit 5 initialisiert dann eine Variable N auf 1 (Schritt ST630). Die Variable N kann einen von 1 bis M rangierenden Wert haben. Die Erkennungssteuereinheit 5 gibt dann ein Umschaltsteuersignal zum Umschalten der Spracherkennungseinheit 3 zu dem N-ten Spracherkennungsteil an die Spracherkennungs-Umschalteinheit 4 aus. Die Spracherkennungs-Umschalteinheit 4 schaltet die Spracherkennungseinheit 3 zu dem N-ten Spracherkennungsteil gemäß dem Umschaltsteuersignal von der Erkennungssteuereinheit 5 um (Schritt ST640).
  • Der N-te Spracherkennungsteil erfasst ein Sprachintervall, das einer Benutzeräußerung entspricht, von den in der Sounddaten-Speichereinheit 2 gespeicherten Daten, extrahiert eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls und führt einen Erkennungsprozess auf den Sounddaten auf der Grundlage der Eigenschaftsgröße aus, während eines Referenzierens eines Erkennungslexikons (Schritt ST650). Die Erkennungssteuereinheit 5 akquiriert Erkennungsergebnisse von dem N-ten Spracherkennungsteil und gibt die Erkennungsergebnisse an die Anzeigeeinheit 8 aus. Beim Empfangen der Erkennungsergebnisse von der Erkennungssteuereinheit 5 zeigt die Anzeigeeinheit 8 die dorthin eingegebenen Erkennungsergebnisse als Kandidaten für ein Erkennungsergebnis gemäß einer Steueroperation durch die Erkennungsergebnis-Bestimmungseinheit 15 an (Schritt ST660).
  • Wenn die Anzeigeeinheit 8 die Kandidaten für ein Erkennungsergebnis anzeigt, tritt die Erkennungsergebnis-Bestimmungseinheit 15 in einen Zustand, in dem auf die Benutzerauswahl eines Erkennungsergebnisses gewartet wird, und bestimmt, ob der Benutzer einen Kandidaten für ein Erkennungsergebnis ausgewählt hat, das auf der Anzeigeeinheit 8 angezeigt wird (Schritt ST670). Wenn der Benutzer einen Kandidaten für ein Erkennungsergebnis auswählt (wenn JA im Schritt ST670), bestimmt die Erkennungsergebnis-Bestimmungseinheit 15 den Kandidaten für ein Erkennungsergebnis, der durch den Benutzer ausgewählt worden ist, als ein endgültiges Erkennungsergebnis (Schritt ST680). Als ein Ergebnis beendet die Spracherkennungsvorrichtung die Erkennungsverarbeitung.
  • Wenn im Gegensatz dazu der Benutzer nicht irgendeinen Kandidaten für ein Erkennungsergebnis ausgewählt hat (wenn NEIN im Schritt ST670), inkrementiert die Erkennungssteuereinheit 5 die Variable N um 1 (Schritt ST690) und bestimmt, ob der Wert der Variable N die Anzahl M der Spracherkennungsteile überschreitet (Schritt ST700). Wenn der Wert der Variable N die Anzahl M der Spracherkennungsteile überschreitet (wenn JA im Schritt ST700), beendet die Spracherkennungsvorrichtung die Erkennungsverarbeitung. Wenn im Gegensatz dazu der Wert der Variable N gleich oder kleiner als die Anzahl M der Spracherkennungsteile ist (wenn NEIN im Schritt ST700), kehrt die Spracherkennungsvorrichtung zu dem Prozess von Schritt ST640 zurück. Als ein Ergebnis wiederholt die Spracherkennungsvorrichtung die oben erwähnten Prozesse durch Verwendung des Spracherkennungsteils, zu dem die Spracherkennungs-Umschalteinheit die Spracherkennungseinheit umschaltet.
  • Wie oben erwähnt, enthält die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 5 die Soundakquiriereinheit 1 zum Ausführen einer digitalen Umwandlung auf einem eingegebenen Sound, um Sounddaten zu akquirieren; die Sounddaten-Speichereinheit 2 zum Speichern der Sounddaten, die die Soundakquiriereinheit 1 akquiriert; die ersten bis M-ten Spracherkennungsteile, jeweils zum Erfassen eines Sprachintervalls aus den in der Sounddaten-Speichereinheit 2 gespeicherten Sounddaten, um eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und jeweils zum Ausführen eines Erkennungsprozesses auf der Grundlage der dadurch extrahierten Eigenschaftsgröße, während eines Referenzierens des Erkennungslexikons; die Spracherkennungs-Umschalteinheit 4 zum Umschalten unter den ersten bis M-ten Spracherkennungsteilen; die Erkennungssteuereinheit 5 zum Steuern des Umschaltens unter den Spracherkennungsteilen durch die Spracherkennungs-Umschalteinheit 4, um durch einen ausgewählten Spracherkennungsteil akquirierte Erkennungsergebnisse zu akquirieren; und die Erkennungsergebnis-Bestimmungseinheit 15 zum Annehmen einer Benutzerauswahl eines Erkennungsergebnisses von den Erkennungsergebnissen, die die Erkennungssteuereinheit 5 akquiriert und dem Benutzer präsentiert, und zum Bestimmen des durch den Benutzer ausgewählten Erkennungsergebnisses als ein endgültiges Erkennungsergebnis. Weil die Spracherkennungsvorrichtung derart konstruiert ist, kann die Spracherkennungsvorrichtung das Erkennungsergebnis, das der Benutzer ausgewählt und spezifiziert hat, als ein endgültiges Erkennungsergebnis vor einem Ausführen sämtlicher der Erkennungsprozesse bestimmen. Deshalb kann die Spracherkennungsvorrichtung die Zeit, die erforderlich ist zum Ausführen der gesamten Erkennungsverarbeitung, reduzieren.
  • Obwohl der Fall, in dem die Erkennungsergebnisse auf der Anzeigeeinheit 8 angezeigt werden, in den oben erwähnten Ausführungsformen 1 bis 5 gezeigt wird, ist die Präsentation der Erkennungsergebnisse für den Benutzer nicht auf eine Schirmanzeige der Erkennungsergebnisse auf der Anzeigeeinheit 8 beschränkt. Zum Beispiel können die Erkennungsergebnisse via eine Sprachführung durch Verwendung einer Soundausgabeeinheit, so wie ein Lautsprecher, bereitgestellt werden.
  • Obwohl der Fall, in dem die Navigationsvorrichtung gemäß der vorliegenden Erfindung auf eine Fahrzeugnavigationsvorrichtung angewendet wird, in der oben erwähnten Ausführungsform 1 gezeigt ist, kann die Navigationsvorrichtung nicht nur auf eine fahrzeugmontierte, sondern auch auf ein Mobiltelefonendgerät oder ein mobiles Informationsendgerät (PDA; Personal Digital Assistance) angewendet werden. Außerdem kann die Navigationsvorrichtung gemäß der vorliegenden Erfindung auf eine PND (Portable Navigation Device) oder dergleichen angewendet werden, die eine Person auf einem sich bewegenden Objekt, so wie ein Auto, ein Eisenbahnzug, ein Schiff oder ein Flugzeug, trägt. Außerdem kann nicht nur die Spracherkennungsvorrichtung gemäß der oben erwähnten Ausführungsform 1, sondern auch die Spracherkennungsvorrichtung gemäß irgendeiner der oben erwähnten Ausführungsformen 2 bis 5 auf eine Navigationsvorrichtung angewendet werden.
  • Während die vorliegenden Erfindung in ihren bevorzugten Ausführungsformen beschrieben worden ist, sollte es verstanden werden, dass eine beliebige Kombination von zwei oder mehr der oben erwähnten Ausführungsformen gemacht werden kann, vielfältige Änderungen in einer beliebigen Komponente gemäß irgendeiner der oben erwähnten Ausführungsformen gemacht werden können, und eine beliebige Komponente gemäß irgendeiner der oben erwähnten Ausführungsformen innerhalb des Schutzbereichs der Erfindung weggelassen werden kann.
  • GEWERBLICHE ANWENDBARKEIT
  • Weil die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung durch verschiedene Spracherkennungsprozesse akquirierte Erkennungsergebnisse exakt präsentieren kann und eine Reduzierung der zum Ausführen der Erkennungsverarbeitung erforderlichen Zeit erreichen kann, ist die Spracherkennungsvorrichtung für eine Spracherkennung in einer fahrzeugmontierten Navigationsvorrichtung geeignet, die eine Beschleunigung der Erkennungsverarbeitung und der Genauigkeit von Erkennungsergebnissen benötigt.
  • ERLÄUTERUNGEN DER BEZUGSZEICHEN
    • 1 Soundakquiriereinheit, 2 und 2A Sounddaten-Speichereinheit, 3 und 3A Spracherkennungseinheit, 4 Spracherkennungs-Umschalteinheit, 5 Erkennungssteuereinheit, 6 und 6A Erkennungsergebnis-Auswähleinheit, 7 Erkennungsergebnis-Speichereinheit, 8 Anzeigeeinheit, 9 Navigationsverarbeitungseinheit, 10 Positionserfassungseinheit, 11 Kartendatenbank (DB), 12 Eingabeeinheit, 13 Erkennungsergebnis-Auswahlverfahren-Änderungseinheit, 14 Sprachintervall-Erfassungseinheit, 15 Erkennungsergebnis-Bestimmungseinheit

Claims (6)

  1. Spracherkennungsvorrichtung mit: einer Akquiriereinheit, die eine digitale Umwandlung eines eingegebenen Sounds ausführt, um Sounddaten zu akquirieren; einem Sounddatenspeicher, der die Sounddaten speichert, die die Akquiriereinheit akquiriert; einer Vielzahl von Spracherkennern, von denen jeder ein Sprachintervall aus den in dem Sounddatenspeicher gespeicherten Sounddaten erfasst, um eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und von denen jeder einen Erkennungsprozess auf einer Grundlage der dadurch extrahierten Eigenschaftsgröße während eines Referenzierens eines Erkennungslexikons ausführt; einem Schalter, der zwischen der Vielzahl von Spracherkennern umschaltet; einer Steuereinrichtung, die das Umschalten zwischen den Spracherkennern durch den Schalter steuert, um durch einen ausgewählten Spracherkenner akquirierte Erkennungsergebnisse zu akquirieren; und einem Selektor, der ein einem Benutzer zu präsentierendes Erkennungsergebnis aus den durch die Steuereinrichtung akquirierten Erkennungsergebnissen auswählt.
  2. Spracherkennungsvorrichtung mit: einer Akquiriereinheit, die eine digitale Umwandlung eines eingegebenen Sounds ausführt, um Sounddaten zu akquirieren; einem Sprachintervalldetektor, der ein Sprachintervall, das einer Benutzeräußerung entspricht, aus den Sounddaten erfasst, die die Akquiriereinheit akquiriert; einem Sounddatenspeicher, der Sounddaten über jedes Sprachintervall speichert, das der Sprachintervalldetektor erfasst; einer Vielzahl von Spracherkennern, von denen jeder eine Eigenschaftsgröße der in dem Sounddatenspeicher gespeicherten Sounddaten extrahiert, und von denen jeder einen Erkennungsprozess auf einer Grundlage der dadurch extrahierten Eigenschaftsgröße während eines Referenzierens eines Erkennungslexikons ausführt; einem Schalter, der zwischen der Vielzahl von Spracherkennern umschaltet; einer Steuereinrichtung, die das Umschalten zwischen den Spracherkennern durch den Schalter steuert, um durch einen ausgewählten Spracherkenner akquirierte Erkennungsergebnisse zu akquirieren; und einem Selektor, der ein einem Benutzer zu präsentierendes Erkennungsergebnis aus den durch die Steuereinrichtung akquirierten Erkennungsergebnissen auswählt.
  3. Spracherkennungsvorrichtung mit: einer Akquiriereinheit, die eine digitale Umwandlung eines eingegebenen Sounds ausführt, um Sounddaten zu akquirieren; einem Sounddatenspeicher, der die Sounddaten speichert, die die Akquiriereinheit akquiriert; einer Vielzahl von Spracherkennern, von denen jeder ein Sprachintervall aus den in dem Sounddatenspeicher gespeicherten Sounddaten erfasst, um eine Eigenschaftsgröße der Sounddaten innerhalb des Sprachintervalls zu extrahieren, und von denen jeder einen Erkennungsprozess auf Grundlage der dadurch extrahierten Eigenschaftsgröße während eines Referenzierens eines Erkennungslexikons ausführt; einem Schalter, der zwischen der Vielzahl von Spracherkennern umschaltet; einer Steuereinrichtung, die das Umschalten zwischen den Spracherkennern durch den Schalter steuert, um durch einen ausgewählten Spracherkenner akquirierte Erkennungsergebnisse zu akquirieren; und einem Bestimmer, der eine Benutzerauswahl eines Erkennungsergebnisses aus den Erkennungsergebnissen, die die Steuereinrichtung akquiriert und dem Benutzer präsentiert, annimmt, und zum Bestimmen des durch den Benutzer ausgewählten Erkennungsergebnisses als ein endgültiges Erkennungsergebnis.
  4. Spracherkennungsvorrichtung gemäß Anspruch 1 oder 2, wobei die Spracherkennungsvorrichtung einen Wechsler enthält, der eine Spezifizierung eines Auswahlverfahrens zum Auswählen des dem Benutzer zu präsentierenden Erkennungsergebnisses aus den Erkennungsergebnissen enthält, die die Steuereinrichtung akquiriert, und zum Ändern eines Auswahlverfahrens zum Auswählen des Erkennungsergebnisses, das der Selektor verwendet, gemäß dem spezifizierten Auswahlverfahren.
  5. Spracherkennungsvorrichtung gemäß einem der Ansprüche 1 bis 4, wobei jeder der Vielzahl von Spracherkennern einen Erkennungsprozess mit einem unterschiedlichen Genauigkeitsgrad ausführen kann, und die Steuereinrichtung jeden der Spracherkenner veranlasst, den Erkennungsprozess mit einem schrittweise zunehmenden Genauigkeitsgrad auszuführen, während eines Eingrenzens der Spracherkenner, von denen jeder den Erkennungsprozess ausführt, auf Grundlage von Erkennungsbewertungen ihrer Erkennungsergebnisse.
  6. Navigationsvorrichtung mit einer Spracherkennungsvorrichtung gemäß einem der Ansprüche 1 bis 5, wobei die Navigationsvorrichtung einen Navigationsprozess durch Verwendung von durch die Spracherkenner akquirierten Erkennungsergebnissen ausführt.
DE112011105407.6T 2011-07-05 2011-07-05 Spracherkennungsvorrichtung und Navigationsvorrichtung Withdrawn DE112011105407T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/003827 WO2013005248A1 (ja) 2011-07-05 2011-07-05 音声認識装置およびナビゲーション装置

Publications (1)

Publication Number Publication Date
DE112011105407T5 true DE112011105407T5 (de) 2014-04-30

Family

ID=47436626

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112011105407.6T Withdrawn DE112011105407T5 (de) 2011-07-05 2011-07-05 Spracherkennungsvorrichtung und Navigationsvorrichtung

Country Status (4)

Country Link
US (1) US20140100847A1 (de)
CN (1) CN103650034A (de)
DE (1) DE112011105407T5 (de)
WO (1) WO2013005248A1 (de)

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
JP2016508007A (ja) 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US20150142441A1 (en) * 2013-11-18 2015-05-21 Samsung Electronics Co., Ltd. Display apparatus and control method thereof
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10115394B2 (en) 2014-07-08 2018-10-30 Mitsubishi Electric Corporation Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results
EP3053587A1 (de) 2015-02-05 2016-08-10 Linde AG Kombination von Stickoxid, Helium und Antibiotika zur Behandlung von bakteriellen Lungeninfektionen
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
EP3108920A1 (de) 2015-06-22 2016-12-28 Linde AG Vorrichtung zur abgabe von stickstoffoxid und sauerstoff an einen patienten
JP6516585B2 (ja) * 2015-06-24 2019-05-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 制御装置、その方法及びプログラム
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
KR101736109B1 (ko) * 2015-08-20 2017-05-16 현대자동차주식회사 음성인식 장치, 이를 포함하는 차량, 및 그 제어방법
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10931999B1 (en) 2016-06-27 2021-02-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US10271093B1 (en) * 2016-06-27 2019-04-23 Amazon Technologies, Inc. Systems and methods for routing content to an associated output device
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
WO2019016938A1 (ja) * 2017-07-21 2019-01-24 三菱電機株式会社 音声認識装置及び音声認識方法
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
DK201870358A1 (en) 2018-06-03 2020-01-03 Apple Inc. ACCELERATED TASK PERFORMANCE
JP7121461B2 (ja) * 2018-09-27 2022-08-18 株式会社オプティム コンピュータシステム、音声認識方法及びプログラム
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
WO2020141615A1 (ko) * 2018-12-31 2020-07-09 엘지전자 주식회사 차량용 전자 장치 및 차량용 전자 장치의 동작 방법
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
JP2020201363A (ja) * 2019-06-09 2020-12-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
CN110415685A (zh) * 2019-08-20 2019-11-05 河海大学 一种语音识别方法
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0679233B2 (ja) * 1986-02-28 1994-10-05 沖電気工業株式会社 音声認識方法
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
JP3027404B2 (ja) * 1990-10-29 2000-04-04 株式会社リコー 車載用音声認識装置
JP3428058B2 (ja) * 1993-03-12 2003-07-22 松下電器産業株式会社 音声認識装置
DE60007637T2 (de) * 2000-10-10 2004-11-18 Sony International (Europe) Gmbh Vermeidung von Online-Sprecherüberanpassung bei der Spracherkennung
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
JP2003295893A (ja) * 2002-04-01 2003-10-15 Omron Corp 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US7478044B2 (en) * 2004-03-04 2009-01-13 International Business Machines Corporation Facilitating navigation of voice data
JP2007156974A (ja) * 2005-12-07 2007-06-21 Kddi Corp 個人認証・識別システム
JP4282704B2 (ja) * 2006-09-27 2009-06-24 株式会社東芝 音声区間検出装置およびプログラム
JP5121252B2 (ja) * 2007-02-26 2013-01-16 株式会社東芝 原言語による音声を目的言語に翻訳する装置、方法およびプログラム
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
JP2009116107A (ja) * 2007-11-07 2009-05-28 Canon Inc 情報処理装置及び方法
JP2009230068A (ja) * 2008-03-25 2009-10-08 Denso Corp 音声認識装置及びナビゲーションシステム
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
WO2011010604A1 (ja) * 2009-07-21 2011-01-27 日本電信電話株式会社 音声信号区間推定装置と音声信号区間推定方法及びそのプログラムと記録媒体

Also Published As

Publication number Publication date
CN103650034A (zh) 2014-03-19
WO2013005248A1 (ja) 2013-01-10
US20140100847A1 (en) 2014-04-10

Similar Documents

Publication Publication Date Title
DE112011105407T5 (de) Spracherkennungsvorrichtung und Navigationsvorrichtung
EP1793371B1 (de) Verfahren zur Spracherkennung
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE60032193T2 (de) Verfahren und System zur Auswahl erkannter Wörter bei der Korrektur erkannter Sprache
EP1176395B1 (de) Verfahren zur Auswahl einer Ortsbezeichnung in einem Navigationssystem durch Spracheingabe
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE102014017384B4 (de) Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
DE102016125812A1 (de) Erlernen von Aussprachen einer personalisierten Entität
DE102009017177B4 (de) Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges
DE112012007103B4 (de) Spracherkennungsvorrichtung
EP1611568B1 (de) Dreistufige einzelworterkennung
DE112012006997B4 (de) Navigationsvorrichtung
EP1071075B1 (de) Verfahren und Vorrichtung zur Eingabe von Daten
DE112013006384T5 (de) Spracherkennungsvorrichtung und Anzeigeverfahren
DE112012006652T5 (de) Spracherkennungsvorrichtung
DE10246029B4 (de) Spracherkennungssystem, Computerprogramm, Navigationssystem und Kollationsverfahren
WO2006111230A1 (de) Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem
EP2250464A1 (de) Verfahren zum betrieb eines navigationssystems
EP3152753B1 (de) Assistenzsystem, das mittels spracheingaben steuerbar ist, mit einer funktionseinrichtung und mehreren spracherkennungsmodulen
EP1238250A2 (de) Spracherkennungsverfahren und -einrichtung
EP2087317B1 (de) Verfahren zur auswahl eines fahrziels
DE112012006308B4 (de) Sprachsynthesevorrichtung
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
DE112014006957B4 (de) Informations-Bereitstellsystem
DE102017211447B4 (de) Verfahren zum Auswählen eines Listeneintrags aus einer Auswahlliste einer Bedienvorrichtung mittels Sprachbedienung sowie Bedienvorrichtung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee