DE112008001763T5 - Spracherkennungsvorrichtung und Navigationssystem - Google Patents

Spracherkennungsvorrichtung und Navigationssystem Download PDF

Info

Publication number
DE112008001763T5
DE112008001763T5 DE112008001763T DE112008001763T DE112008001763T5 DE 112008001763 T5 DE112008001763 T5 DE 112008001763T5 DE 112008001763 T DE112008001763 T DE 112008001763T DE 112008001763 T DE112008001763 T DE 112008001763T DE 112008001763 T5 DE112008001763 T5 DE 112008001763T5
Authority
DE
Germany
Prior art keywords
threshold
recognition
unit
words
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112008001763T
Other languages
English (en)
Inventor
Tomohiro Chiyoda-ku Noda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112008001763T5 publication Critical patent/DE112008001763T5/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

Spracherkennungsvorrichtung, dadurch gekennzeichnet, dass sie umfasst:
eine Spracherkennungs-Verarbeitungseinheit zum Erkennen einer geäußerten Sprache als eine Zeichenkette;
eine Wortunterteilungseinheit zum Unterteilen der erkannten Zeichenkette in Wörter, welche die Zeichenkette aufbauen;
eine Zuverlässigkeits-Berechnungseinheit zum Berechnen eines Erkennungszuverlässigkeitsgrads jedes der unterteilten Wörter;
eine Zuverlässigkeitsbestimmungseinheit zum Bestimmen, ob der Erkennungszuverlässigkeitsgrad jedes der unterteilten Wörter höher als ein Schwellenwert ist oder nicht;
eine Schwellenwerteinstelleinheit zum Einstellen des Schwellenwertes, den die Zuverlässigkeitsbestimmungseinheit für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet; und
eine Anwenderschnittstellen-bereitstellende Einheit zum, wenn die Zuverlässigkeitsbestimmungseinheit bestimmt, dass der Erkennungszuverlässigkeitsgrad eines oder mehrerer der Wörter niedriger als der oben erwähnte Schwellenwert ist, Bestimmen, ob eines oder mehrere Wörter auszugeben sind, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, oder ein Wieder-Äußern der einen oder mehreren Wörter, deren Erkennungszuverlässigkeitsgrade als niedriger als der Schwellenwert bestimmt worden sind, zu verlangen.

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Spracherkennungsvorrichtung und ein Navigationssystem, das zur Verwendung in beispielsweise Anwendungen geeignet ist, die zur Ausführung von Spracheingabe eines Bestimmungsorts, um den Bestimmungsort einzustellen, verwendet werden.
  • In den letzten Jahren sind Navigationssysteme weit verbreitet geworden und es ist üblicherweise ein Einstellen eines Bestimmungsortes durch Sprachausgabe durchgeführt worden. Anhand einer Bestimmungsortsuchfunktion wird unter Verwendung einer solchen Anwenderäußerung eines Bestimmungsortes ein Ergebnis ausgegeben, basierend auf allen in dem geäußerten Bestimmungsort enthaltenen Zeichen, und, falls das Ergebnis nicht der Absicht des Anwenders entspricht, wird der Anwender aufgefordert, ein Wieder-Äußern aller im Bestimmungsort enthaltenen Wörter vorzunehmen. In diesem Fall, egal wie viel Male der Anwender den Bestimmungsort äußert, wird das Ergebnis irgendeiner vorherigen Spracherkennung in einem zukünftigen Spracherkennungsprozess nicht als valide eingeschlossen und dieses führt dazu, dass der Anwender veranlasst wird, die Unbequemlichkeit des Vornehmens einer Äußerung eines Bestimmungsortes zu haben, und die Erkennungsrate kann insgesamt nicht verbessert werden.
  • Andererseits, um eine Stimme mit hohem Grad an Genauigkeit zu erkennen, ohne den Anwender zu veranlassen, die Unbequemlichkeit der Vornahme einer Äußerung zu haben, ist eine Technologie der Unterteilung einer Zeichenkette, die als Ergebnis von Spracherkennung in Silben erfasst wird, und, wenn festgestellt wird, dass der Zuverlässigkeitsgrad einer der Silben, in die die Zeichenkette unterteilt ist, niedriger als ein spezifizierter Schwellenwert ist, Veranlassen des Anwenders, eine Äußerung nur der Silbe vorzunehmen, bekannt (vergleiche beispielsweise Patentreferenz 1).
    • [Patentreferenz 1]: JP 2005-157166 A
  • Gemäß der in der oben erwähnten Patentreferenz 1 offenbarten Technologie wird der Zuverlässigkeitsgrad einer durch Spracherkennung erkannten Stimme berechnet und die geäußerte Sprache wird erkannt, wenn der Zuverlässigkeitsgrad niedrig ist, während eine kontinuierlich erkannte Sprache ausgegeben wird, wenn der Zuverlässigkeitsgrad hoch ist. Daher kann Belastung des Anwenders bei Vornahme einer Äußerung reduziert werden und es kann die Erkennungsrate verbessert werden.
  • Weil jedoch der Schwellenwert, der als Kriterium verwendet wird, mit dem bestimmt wird, ob der Zuverlässigkeitsgrad hoch oder niedrig ist, auf einen spezifischen Wert fixiert ist, gibt es das Problem, dass keine flexible Spracherkennung gemäß Anwenderanforderung oder Anwenderattributen ausgeführt werden kann.
  • Die vorliegende Erfindung ist gemacht worden, um das oben erwähnte Problem zu lösen und es ist daher eine Aufgabe der vorliegenden Erfindung, eine Spracherkennungsvorrichtung und ein Navigationssystem bereitzustellen, die flexible Spracherkennung gemäß Anwenderanforderung oder Anwenderattributen durchführen können.
  • Offenbarung der Erfindung
  • Um das oben erwähnte Problem zu lösen, enthält eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung: eine Spracherkennungs-Verarbeitungseinheit zum Erkennen einer geäußerten Sprache als eine Zeichenkette; eine Wortunterteilungseinheit zum Unterteilen der oben erwähnten erkannten Zeichenkette in Wörter, welche die oben erkannte Zeichenkette aufbauen; eine Zuverlässigkeits-Berechnungseinheit zum Berechnen eines Erkennungszuverlässigkeitsgrads jedes der oben erwähnten unterteilten Wörter; eine Zuverlässigkeitsbestimmungseinheit zum Bestimmen, ob der Erkennungszuverlässigkeitsgrad jedes der oben erwähnten unterteilten Wörter höher als ein Schwellenwert ist oder nicht; eine Schwellenwerteinstelleinheit zum Einstellen des oben erwähnten Schwellenwertes, den die oben erwähnte Zuverlässigkeitsbestimmungseinheit für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet; und eine Anwenderschnittstellen bereitstellende Einheit zum, wenn die oben erwähnte Zuverlässigkeitsbestimmungseinheit bestimmt, dass der Erkennungszuverlässigkeitsgrad eines oder mehrerer der oben erwähnten Wörter niedriger als der oben erwähnte Schwellenwert ist, Bestimmen, ob eines oder mehrere Wörter auszugeben sind, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, oder ein Wieder-Äußern der oben erwähnten einen oder mehreren Wörter, deren Erkennungszuverlässigkeitsgrade als niedriger als der Schwellenwert bestimmt worden sind, zu verlangen.
  • Ein Navigationssystem gemäß der vorliegenden Erfindung enthält: eine Spracherkennungseinheit zum Erkennen eines geäußerten Bestimmungsortes als einer Zeichenkette, zum Unterteilen der oben erwähnten erkannten Zeichenkette in Wörter, zum Bestimmen, ob ein Erkennungszuverlässigkeitsgrad jedes der oben erwähnten unterteilten Wörter höher als ein Schwellenwert ist oder nicht und zum Ausgeben eines Erkennungsergebnisses, wenn festgestellt wird, dass der Erkennungszuverlässigkeitsgrad höher als der oben erwähnte Schwellenwert ist; und eine Bestimmungsorteinstellprozesseinheit zum Einstellen des Schwellenwerts, der zur Bestimmung des oben erwähnten Erkennungszuverlässigkeitsgrads verwendet wird, und zum, wenn die oben erwähnte Zuverlässigkeitsbestimmungseinheit bestimmt, dass der Erkennungszuverlässigkeitsgrad eines der oben erwähnten Wörter niedriger als der oben erwähnte Schwellenwert ist, Bestimmen, ob ein Bestimmungsorteinstellen auf Basis von Worten, deren Erkennungszuverlässigkeitsgrad als höher als der Schwellenwert bestimmt worden ist, durchzuführen ist, oder der oben erwähnte Schwellenwert zu ändern ist und das wieder Äußern des oben erwähnten Wortes zu verlangen, dessen Erkennungszuverlässigkeitsgrad als niedriger als der Schwellenwert bestimmt worden ist, und dann die Spracherkennung durch die oben erwähnte Spracherkennungseinheit zu wiederholen und das Bestimmungsorteinstellen unter Verwendung eines Ergebnisses der oben erwähnten Erkennung durchzuführen.
  • Gemäß der vorliegenden Erfindung kann eine Spracherkennungsvorrichtung und ein Navigationssystem bereitgestellt werden, die eine flexible Spracherkennung gemäß Anwenderanforderung oder Anwenderattributen ausführen kann.
  • Kurze Beschreibung der Figuren
  • 1 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Navigationssystems gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt;
  • 2 ist ein Blockdiagramm, das ein Beispiel der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt;
  • 3 ist ein Blockdiagramm, das ein Beispiel der internen Struktur einer Schwellenwerteinstelleinheit der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt; und
  • 4 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt.
  • Bevorzugte Ausführungsformen der Erfindung
  • Nachfolgend wird, um diese Erfindung detaillierter zu erläutern, die bevorzugten Ausführungsform der vorliegenden Erfindung unter Bezugnahme auf die beigefügten Zeichnungen erläutert werden.
  • Ausführungsform 1
  • 1 ist ein Blockdiagramm, das ein Beispiel der Struktur eines Navigationssystems gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt.
  • Das Navigationssystem gemäß Ausführungsform 1 der vorliegenden Erfindung umfasst ein Mikrofon (Mikro) 1, eine Spracherkennungseinheit 2, eine Bestimmungsorteinstell-Verarbeitungseinheit 3, einen berührungssensitiven Bildschirm (Touch-Panel) 4, eine Stimm-Wellenform-Datenbank 5 und eine Kartendatenbank 6, wie in 1 gezeigt.
  • Die Spracherkennungseinheit 2 weist eine Funktion zur Erkennung einer Anwenderäußerung auf, die vom Mikro 1 aufgenommen worden ist, als einer Zeichenkette, Unterteilen der erkannten Zeichenkette in Wörter, Bestimmen, ob ein Erkennungszuverlässigkeitsgrad jedes unterteilten Wortes höher als ein Schwellenwert ist oder nicht, und, wenn festgestellt wird, dass der Erkennungszuverlässigkeitsgrad jedes unterteilten Wortes höher als der Schwellenwert ist, Ausgeben eines Ergebnisses der Erkennung an die Bestimmungsorteinstell-Verarbeitungseinheit 3.
  • Die Bestimmungsorteinstell-Verarbeitungseinheit 3 weist eine Funktion der Einrichtung des Schwellenwertes auf, der für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet wird, und auch, wenn die Spracherkennungseinheit 2 bestimmt, dass der Erkennungszuverlässigkeitsgrad eines Wortes niedriger als der Schwellenwert ist, einer Durchführung einer Bestimmungsort-Einstellung auf Basis der Worte, die alle als höher als der Schwellenwert bestimmt worden sind, oder Änderung des Schwellenwertes, um eine Wiederäußerung des Wortes zu verlangen, das als niedriger als der Schwellenwert bestimmt worden ist, und eine Spracherkennung durch die Spracherkennungseinheit 2 zu wiederholen, und dann Durchführung einer Bestimmungsorteinstellung unter Verwendung des Erkennungsergebnisses.
  • Zur Spracherkennung verwendete Sprachelemente werden in der Stimm-Wellenform-Datenbank 5 als Wellenformen gespeichert und beim Ausführen eines Spracherkennungsprozesses bezieht sich die Spracherkennungseinheit 2 auf die Stimm-Wellenform-Datenbank zum Zeitpunkt der Durchführung einer Korrelationsoperation, um den Ähnlichkeitsgrad zu bestimmen. Kartierungsdaten werden in der Kartendatenbank 6 gespeichert und bei Durchführung einer Bestimmungsortseinstellung auf Basis einer von der Spracherkennungseinheit 2 erkannten Sprache bildet die Bestimmungsorteinstell-Verarbeitungseinheit 3 den Bestimmungsort auf Kartendaten ab, um den Bestimmungsort auf dem Touch-Panel 4 anzuzeigen.
  • Das Touch-Panel 4 dient als eine Benutzerschnittstelle zur Durchführung des folgenden Prozesses: ein Einrichten des vom Anwender eingegebenen Schwellenwerts, eine Anzeige einer Nachricht, zur Aufforderung des Anwenders, eine Wiederäußerung einiger Worte vorzunehmen, eine Anzeige eines Spracherkennungsergebnisses, oder dergleichen.
  • 2 ist ein Blockdiagramm, welches die interne Struktur der Spracherkennungsvorrichtung (der Spracherkennungseinheit 2 von 1) gemäß Ausführungsform 1 der vorliegenden Erfindung zeigt, in der ihre Struktur in funktionelle Blöcke unterteilt ist.
  • Wie in 2 gezeigt, besteht die Spracherkennungsvorrichtung (die Spracherkennungseinheit 2) gemäß Ausführungsform 1 der vorliegenden Erfindung aus einer Spracheingabeerfassungseinheit 21, einer Spracherkennungsverarbeitungseinheit 22, einer Wortunterteilungseinheit 23, einer Zuverlässigkeitsberechnungseinheit 24, einer Zuverlässigkeitsbestimmungseinheit 25, einer UI(Anwenderschnittstellen)-Bereitstellungseinheit 26 und einer Schwellenwert-Einstelleinheit 27.
  • Die Spracheingabeerfassungseinheit 21 weist eine Funktion zur Erfassung einer von einem Anwender geäußerten Sprache auf, die vom Mikro 1 aufgenommen wird und Bereitstellen der Sprache an die Spracherkennungs-Verarbeitungseinheit 22. Die Spracherkennungs-Verarbeitungseinheit 22 weist eine Funktion des Erkennens der eingegebenen Sprache als Zeichenkette und Bereitstellen dieser Zeichenkette an die Wortunterteilungs-Verarbeitungseinheit 23 auf.
  • Die Wortunterteilungseinheit 23 weist eine Funktion des Unterteilens der durch die Spracherkennungs-Verarbeitungseinheit 22 erkannten Zeichenkette in Wörter, die diese Zeichenkette aufbauen, und Übergeben der Wörter an die Zuverlässigkeitsberechnungseinheit 24 auf. Die Zuverlässigkeitsberechnungseinheit 24 weist eine Funktion des Berechnens des Erkennungszuverlässigkeitsgrades jedes der Wörter, in die die Zeichenkette durch die Wortunterteilungseinheit 23 unterteilt worden ist, und Übergeben des Erkennungszuverlässigkeitsgrades an die Zuverlässigkeitsbestimmungseinheit 25 auf.
  • Die Zuverlässigkeitsbestimmungseinheit 25 weist eine Funktion zur Bestimmung, ob der Erkennungszuverlässigkeitsgrad jedes der Wörter, in welche die Zeichenkette durch die Wortunterteilungseinheit 23 unterteilt worden ist, wobei der Erkennungszuverlässigkeitsgrad durch die Zuverlässigkeitsberechnungseinheit 24 berechnet wird, höher als der durch die Schwellenwerteinstelleinheit 27 eingestellte Schwellenwert ist oder nicht, und Übergeben eines Ergebnisses der Bestimmung an die UI bereitstellende Einheit 26 auf.
  • Die UI bereitstellende Einheit 26 weist eine Funktion des, wenn die Zuverlässigkeitsbestimmungseinheit 25 bestimmt, dass der Erkennungszuverlässigkeitsgrad eines Wortes niedriger als der Schwellenwert ist, Bestimmens, ob die Worte, die alle als höher als der Schwellenwert bestimmt worden sind, auszugeben sind, oder der Anwender aufzufordern ist, eine Wiederäußerung des Wortes vorzunehmen, das als niedriger als der Schwellenwert bestimmt worden ist. Die UI bereitstellende Einheit 26 dient als eine Schnittstelle zwischen dem Anwender und der Spracherkennungsvorrichtung, indem eine Eingabe/Ausgabevorrichtung wie etwa das in 1 gezeigte Touch-Panel 4 verwendet wird.
  • Die Schwellenwerteinstelleinheit 27 weist eine Funktion des Einstellens des Schwellenwertes auf, den die Zuverlässigkeitsbestimmungseinheit 25 für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet.
  • Konkret zählt, wenn eine Wiederäußerung einiger Worte durch die UI bereitstellende Einheit 26 ausgewählt wird, die Schwellenwerteinstelleinheit 27 die Anzahl, in der eine Wiederäußerung vorgenommen worden ist, vergleicht die gezählte Anzahl mit einem Referenzwert und aktualisiert den Schwellenwert anhand des Ergebnisses des Vergleichs. Die Schwellenwerteinstelleinheit 27 erfasst auch einen vom Anwender über die UI bereitstellende Einheit 26 eingegebenen Schwellenwert und aktualisiert den eingestellten Schwellenwert mit dem eingegebenen Schwellenwert. Weiterhin kann anstelle des Einstellens des Schwellenwertes für jede geäußerte Sprache die Schwellenwerteinstelleinheit 27 den Schwellenwert für jedes der aus der Wortunterteilungseinheit 23 ausgegebenen, erkannten Wörter einstellen.
  • Die Schwellenwerteinstelleinheit 27 besteht aus einem Zähler (CNT) 271, einem Konstantenregister 272, einem Komparator (COMP) 273 und einer Schwellenwert-Justiereinheit 274, wie als ein Beispiel seiner internen Struktur in 3 gezeigt.
  • Wenn vom Anwender über die UI bereitstellende Einheit 26 eine Wiederäußerung ausgewählt wird, zählt der CNT 271 die Anzahl, mit der eine Wiederäußerung vorgenommen worden ist und übergibt die gezählte Anzahl an einen Eingangsanschluss des COMP 273. Der aus dem Konstantenregister 272 ausgelesene Referenzwert wird einem anderen Eingangsanschluss des COMP 273 bereitgestellt, der COMP 273 vergleicht die Anzahl, mit der eine Wiederäußerung vorgenommen worden ist, die darin eingegeben ist, mit dem Referenzwert und stellt ein Ergebnis des Vergleichs der Schwellenwert-Justiereinheit 274 bereit. Weiterhin wird ein Schwellenwert, den der Anwender manuell eingestellt hat, aus der UI bereitstellenden Einheit 26 an die Schwellenwert-Justiereinheit 274 geliefert und schließlich justiert die Schwellenwert-Justiereinheit 274 den Schwellenwert, den der Anwender manuell eingestellt hat. Die Details der Justierung werden unten erwähnt.
  • In der in den 2 und 3 gezeigten oben erwähnten Struktur äußert der Anwender zuerst eine Adresse, einen Namen, eine Telefonnummer etc. ins Mikro 1, um eine Bestimmungsortseinstellung durchzuführen. Danach wird angenommen, dass der Anwender wie folgt äußert: ”Hyogo-ken Sanda-shi Miwa 3-33”.
  • Die Spracherkennungs-Verarbeitungseinheit 22 erzeugt aus der vom Anwender geäußerten Sprachinformation, die von der Spracheingabeerfassungseinheit 21 erfasst wird, Zeichenketteninformation und liefert die Zeichenketteninformation an die Wortunterteilungseinheit 23. Die Wortunterteilungseinheit 23 unterteilt die durch die Spracherkennungs-Verarbeitungseinheit 22 erkannte Zeichenketteninformation in Worte. Konkret wird in diesem Fall die Zeichenketteninformation in die folgenden Worte unterteilt: ”Hyogo-ken”, ”Sanda-shi”, ”Miwa”, und ”3–33”.
  • Die Zuverlässigkeitsberechnungseinheit 24 berechnet den Erkennungszuverlässigkeitsgrad jedes der Worte, in die die Zeichenkette durch die Wortunterteilungseinheit 23 unterteilt worden ist, bestimmt, ob der Erkennungszuverlässigkeitsgrad höher oder niedriger als der Schwellenwert ist und gibt ein Ergebnis der Bestimmung aus. Beispielsweise wird angenommen, das das Spracherkennungsergebnis ”Hyogo-ken Sanda-shi” ist. Gemäß Anwenderanweisung bestimmt auf Basis dieses Ergebnisses die UI bereitstellende Einheit 26, ob der Anwender aufgefordert wird, die Worte wieder zu äußern, deren Erkennungszuverlässigkeitsgrad als nicht den Schwellenwert erreichend festgestellt worden ist, in diesem Fall ”Miwa 3–33”, oder nach dem Bestimmungsort gemäß der sich aus der Spracherkennung unter Vernachlässigung der Worte, deren Erkennungszuverlässigkeitsgrade als nicht den Schwellenwert erreichend bestimmt worden sind, ergebenden Adresse zu suchen. Diese Äußerung kann auch wiederholt durchgeführt werden, bis das erfasste Spracherkennungsergebnis eines wird, das der Anwender akzeptieren kann. Da die UI bereitstellende Einheit 26 eine Wiederäußerung durch den Anwender auswählen kann, um den Anwender aufzufordern, nur die Wörter wieder zu äußern, deren Erkennungszuverlässigkeitsgrade, die durch die Zuverlässigkeitsberechnungseinheit 24 berechnet werden, durch die Zuverlässigkeitsbestimmungseinheit 25 als gleich oder niedriger als dem Schwellenwert bestimmt worden sind, kann die Spracherkennungs-Verarbeitungseinheit 22 einen Spracherkennungsprozess durchführen, der in der Lage ist, den zu erkennenden Bereich auf einen kleineren als den vorherigen zu beschränken und kann daher eine höhere Erkennungsrate als im Falle der vorherigen Äußerung erreichen.
  • Andererseits kann die Schwellenwerteinstelleinheit 27 den Schwellenwert, den die Zuverlässigkeitsbestimmungseinheit 25 verwendet, auf Basis einer manuellen Einstellung, die der Anwender über die UI bereitstellende Einheit 26 durchführt, ändern oder einstellen. Dem Anwender das freie Einrichten des Schwellenwertes zu ermöglichen, hat den folgenden Vorteil.
  • Das heißt, weil es individuelle Differenzen bei der Intonation gibt und wenn der Schwellenwert auf einen spezifischen Wert fixiert ist, es einen Fall geben kann, in dem die Spracherkennungs-Verarbeitungseinheit ein von einem Anwender geäußerte Sprache nicht erkennen kann, aufgrund individueller Differenzen in der Intonation (z. B. kann der Anwender einen schweren ”regionalen Akzent” haben), kann dieses Problem in einem solchen Fall durch Absenken des Schwellenwertes gelöst werden. Weiterhin kann durch Anheben des Schwellenwertes, wenn der Anwender korrektere Spracherkennung wünscht, die Spracherkennungsvorrichtung dazu gebracht werden, auf den Anwenderwunsch zu reagieren.
  • Der Anwender kann einen rohen Schwellenwert (z. B. einen von fünf Pegeln 1 bis 5) für den Erkennungszuverlässigkeitsgrad einstellen, indem er beispielsweise das Touch-Panel 4 manuell betätigt. Weiterhin kann die Spracherkennungsvorrichtung den Schwellenwert fein durch Rückkopplung der Anwenderabsicht justieren, die aus dem ersten Erkennungsergebnis abgeschätzt wird. Falls beispielsweise der Anwender manuell ”4” als Schwellenwert einstellt, führt die Spracherkennungseinheit (die Schwellenwerteinstelleinheit 27) eine Feineinstellung des Schwellenwerts automatisch in solcher Weise durch, dass der Schwellenwert innerhalb eines Bereiches von 3,5 bis 4,5 fällt. Die Details der Feinjustierung werden unten erwähnt.
  • 4 ist ein Flussdiagramm, das insbesondere auf den Betrieb der Schwellenwerteinstelleinheit 27 aus den Komponenten der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung abstellt.
  • Nachfolgend wird der Betrieb der Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung, wie in den 2 und 3 gezeigt, detailliert unter Bezugnahme auf das Flussdiagramm von 4 erläutert.
  • Wie in 4 gezeigt, bestimmt die Zuverlässigkeitsbestimmungseinheit 25, ob der Erkennungszuverlässigkeitsgrad jedes der Wörter, in welche die erkannte Zeichenkette, in welche die eingegebene Sprache durch die Spracherkennungs-Verarbeitungseinheit 22 konvertiert wird, durch die Wortunterteilungseinheit 23 unterteilt wird, gleich oder niedriger als der Schwellenwert ist oder nicht (Schritt ST41). Wenn es ein Wort gibt, dessen Erkennungszuverlässigkeitsgrad gleich oder kleiner als der Schwellenwert ist (falls ”Vorhanden” in Schritt ST41), verlangt die Spracherkennungsvorrichtung vom Anwender, auszuwählen, ob einer Wiederäußerung des Wortes vorzunehmen ist, über die UI bereitstellende Einheit 26 (Schritt ST42).
  • Falls eine Wiederäußerung oft gemacht wird, zählt die Schwellenwerteinstelleinheit 27 die Anzahl, mit der eine Wiederäußerung gemacht worden ist, wobei der darin eingebaute CNT 271 verwendet wird, und nimmt einen Vergleich zwischen der Anzahl und dem im Konstantenregister 272 eingestellten Referenzwert unter Verwendung des COMP 273 vor, jedes Mal, wenn eine Wiederäußerung gemacht wird (Schritt ST43).
  • Wenn festgestellt wird, dass eine Wiederäußerung eine Referenzanzahl oder mehr Mal gemacht worden ist (falls in Schritt S43 ”Ja”), führt die Schwellenwert-Justiereinheit 274, weil das bedeutet, das der zuvor durch den Anwender eingestellte Schwellenwert höher als der gewünschte Wert ist, eine Feinjustierung wie oben erwähnt des vom Anwender eingestellten Wertes durch, um in diesem Fall automatisch einen niedrigeren Schwellenwert rückzusetzen (Schritt S44). Die Spracherkennungsvorrichtung veranlasst dann den Anwender, eine Wiederäußerung vorzunehmen, über die UI bereitstellende Einheit 26 (Schritt ST45). In diesem Fall zeigt die UI bereitstellende Einheit 26 die erkannte Zeichenkette auf der Eingabe/Ausgabe-Vorrichtung, wie etwa dem Touch-Panel 4, an und hebt die Wörter hervor, deren Erkennungszuverlässigkeitsgrade als gleich oder niedriger als der Schwellenwert bestimmt worden sind, um den Anwender aufzufordern, eine Wiederäußerung der Worte vorzunehmen.
  • Auch wenn im Prozess von Schritt ST43 die Anzahl von Malen, die eine Wiederäußerung gemacht worden ist, gleich oder kleiner als der Refenerzwert bestimmt wird, fördert in ähnlicher Weise die Spracherkennungsvorrichtung den Anwender auf, eine Wiederäußerung vorzunehmen (falls in Schritt ST43 ”Nein”). Weiterhin, wenn im Prozess von Schritt ST41 alle Wörter einen Zuverlässigkeitsgrad gleich oder höher als der Schwellenwert haben (als in Schritt ST41 ”Abwesend”) oder wenn eine Wiederäußerung im Prozess von Schritt ST42 nicht ausgewählt wird, sondern eine Ausgabe der Worte, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, ausgewählt wird, beendet die Spracherkennungsvorrichtung den Spracherkennungsprozess.
  • Wie zuvor erläutert, ermöglicht die Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung es dem Anwender, den Schwellenwert manuell zu ändern, oder sie kann dynamisch den Schwellenwert automatisch ändern und kann den Anwender auffordern, wiederholt die Worte zu äußern, an denen die Erkennung der Spracherkennungsvorrichtung versagt hat. Daher kann die Spracherkennungsvorrichtung die Erkennungsrate verbessern und kann flexible Spracherkennung gemäß Anwenderanforderung oder Anwender-Attributen durchführen (z. B. Anwesenheit oder Abwesenheit eines regionalen Akzents oder dergleichen).
  • Weiterhin, wenn bestimmt wird, dass der Erkennungszuverlässigkeitsgrad eines der Wörter, in welche die eingegebene Sprache unterteilt wird, niedriger als der Schwellenwert ist, fordert die Spracherkennungsvorrichtung den Anwender auf, eine Wiederäußerung nur des Wortes vorzunehmen und bestimmt, dass das Ergebnis der Erkennung der anderen Worte, welche die Anwenderabsicht erfüllen, gültig sind. Daher kann die Spracherkennungsvorrichtung die Erkennungsrate insgesamt verbessern, ohne den Anwender zu veranlassen, die Unbequemlichkeit der Vornahme von Wiederäußerung zu haben.
  • 1 zeigt eine Anwendung, in der die Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung auf eine Bestimmungsort-Suchfunktion unter Verwendung einer Äußerung einer Adresse des Navigationssystems angewendet wird.
  • In diesem Beispiel erkennt die Spracherkennungseinheit 2 die als Zeichenkette geäußerte Adresse durch Bestimmen einer Korrelation zwischen der Adresse und den in der Stimm-Wellenform-Datenbank 5 gespeicherten Sprachelemente, unterteilt die erkannte Zeichenkette in Wörter und bestimmt, ob der Erkennungszuverlässigkeitsgrad jedes der Wörter, in die die erkannte Zeichenkette unterteilt ist, höher als der Schwellenwert ist oder nicht, und wenn festgestellt wird, dass der Erkennungszuverlässigkeitsgrad jedes der Wörter höher als der Schwellenwert ist, übergibt sie das Erkennungsergebnis an die Bestimmungsorteinstell-Verarbeitungseinheit 3.
  • Die Bestimmungsorteinstell-Verarbeitungseinheit 3 stellt den Schwellenwert, der zur Bestimmung des Erkennungszuverlässigkeitsgrads verwendet worden ist, ein, und wenn die Spracherkennungseinheit 2 bestimmt, dass der Erkennungszuverlässigkeitsgrad eines Wortes niedriger als der Schwellenwert ist, führt ein Bestimmungsorteinstellen auf Basis von Wörtern durch, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, oder ändert den Schwellenwert, um den Anwender aufzufordern, eine Wiederäußerung des Wortes vorzunehmen, dessen Erkennungszuverlässigkeitsgrad als niedriger als der Schwellenwert bestimmt worden ist, und veranlasst dann die Spracherkennungseinheit 2, die Spracherkennung zu wiederholen und führt eine Bestimmungsorteinstellung unter Bezugnahme auf die Kartendatenbank 6 durch, wobei das Ergebnis der Erkennung verwendet wird.
  • Wie oben erwähnt, berechnet die Spracherkennungseinheit 1 den Zuverlässigkeitsgrad jedes der Wörter, die in der geäußerten Zeichenkette enthalten sind, und bestimmt, dass sie beim Erkennen der Wörter erfolgreich war, deren Zuverlässigkeitsgrade höher als der Schwellenwert sind, um das Ergebnis der Erkennung an dem Touch-Panel 4 auszugeben. Weiterhin kann der Anwender den Schwellenwert einstellen, den die Spracherkennungseinheit zu dem Zeitpunkt verwendet, manuell unter Verwendung des Touch-Panels 4, oder die Spracherkennungsvorrichtung (die Spracherkennungseinheit 1) selbst kann automatisch den Schwellenwert fein justieren, wie oben erwähnt.
  • Das oben erwähnte Navigationssystem gemäß Ausführungsform 1 der vorliegenden Erfindung kann die Spracherkennungsvorrichtung dazu bringen, Spracherkennung auszuführen, um eine Bestimmungsorteinstellung gemäß entweder Anwenderanforderung oder Anwender-Attributen vorzunehmen und kann daher den Anwender mit Bequemlichkeit versehen.
  • Die oben erwähnte Spracherkennungsvorrichtung oder das Navigationssystem gemäß dieser Ausführungsform der vorliegenden Erfindung kann den Schwellenwert für jedes der Wörter, in welche geäußerte Sprache unterteilt wird, einstellen, anstelle von für jede geäußerte Sprache. In diesem Fall kann die oben erwähnte Spracherkennungsvorrichtung oder das Navigationssystem Spracherkennung flexibler ausführen.
  • Alle Funktionen der Konfigurationsblöcke, welche die in 2 gezeigte Spracherkennungseinheit 2 aufweist, können über Software implementiert werden oder zumindest ein Teil davon kann über Hardware implementiert werden. Beispielsweise können die Datenverarbeitungen, die von jeder der Spracheingabeerfassungseinheit 21, Spracherkennungs-Verarbeitungseinheit 22, Wortunterteilungseinheit 23, Zuverlässigkeitsberechnungseinheit 24, Zuverlässigkeitsbestimmungseinheit 25, UI bereitstellende Einheit 26 und Schwellenwerteinstelleinheit 27 durchgeführt werden, über eine oder mehrere Programme implementiert werden, die auf einem Computer laufen, oder zumindest ein Teil der Datenprozessierung kann mittels Hardware implementiert werden.
  • Industrielle Anwendbarkeit
  • Wie oben erwähnt, berechnet die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung den Zuverlässigkeitsgrad jedes Wortes einer geäußerten Zeichenkette, um zu bestimmen, ob der Zuverlässigkeitsgrad höher als ein Schwellenwert ist oder nicht und ermöglicht dem Anwender, den für die Bestimmung verwendeten Schwellenwert einzustellen. Daher ist die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung zur Verwendung in einem Fahrzeugnavigationssystem geeignet, das eine Einstellung eines Bestimmungsortes unter Verwendung von Spracherkennung durchführen kann, und so weiter.
  • ZUSAMMENFASSUNG
  • Eine Spracherkennungsvorrichtung umfasst: eine Spracherkennungs-Verarbeitungseinheit 22 zum Erkennen einer geäußerten Sprache als eine Zeichenkette; eine Wortunterteilungseinheit 23 zum Unterteilen der erkannten Zeichenkette in Wörter, welche diese Zeichenkette aufbauen; eine Zuverlässigkeits-Berechnungseinheit 24 zum Berechnen eines Erkennungszuverlässigkeitsgrads jedes der unterteilten Wörter; eine Zuverlässigkeitsbestimmungseinheit 25 zum Bestimmen, ob der Erkennungszuverlässigkeitsgrad jedes der unterteilten Wörter höher als ein Schwellenwert ist oder nicht; eine Schwellenwerteinstelleinheit 27 zum Einstellen des Schwellenwertes, den die Zuverlässigkeitsbestimmungseinheit 25 für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet; und eine Anwenderschnittstellen bereitstellende Einheit 26 zum, wenn die Zuverlässigkeitsbestimmungseinheit 25 bestimmt, dass der Erkennungszuverlässigkeitsgrad eines oder mehrerer der Wörter niedriger als der Schwellenwert ist, Bestimmen, ob eines oder mehrere Wörter auszugeben sind, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, oder ein Wieder-Äußern der einen oder mehreren Wörter, deren Erkennungszuverlässigkeitsgrade als niedriger als der Schwellenwert bestimmt worden sind, zu verlangen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • - JP 2005-157166 A [0003]

Claims (5)

  1. Spracherkennungsvorrichtung, dadurch gekennzeichnet, dass sie umfasst: eine Spracherkennungs-Verarbeitungseinheit zum Erkennen einer geäußerten Sprache als eine Zeichenkette; eine Wortunterteilungseinheit zum Unterteilen der erkannten Zeichenkette in Wörter, welche die Zeichenkette aufbauen; eine Zuverlässigkeits-Berechnungseinheit zum Berechnen eines Erkennungszuverlässigkeitsgrads jedes der unterteilten Wörter; eine Zuverlässigkeitsbestimmungseinheit zum Bestimmen, ob der Erkennungszuverlässigkeitsgrad jedes der unterteilten Wörter höher als ein Schwellenwert ist oder nicht; eine Schwellenwerteinstelleinheit zum Einstellen des Schwellenwertes, den die Zuverlässigkeitsbestimmungseinheit für die Bestimmung des Erkennungszuverlässigkeitsgrades verwendet; und eine Anwenderschnittstellen-bereitstellende Einheit zum, wenn die Zuverlässigkeitsbestimmungseinheit bestimmt, dass der Erkennungszuverlässigkeitsgrad eines oder mehrerer der Wörter niedriger als der oben erwähnte Schwellenwert ist, Bestimmen, ob eines oder mehrere Wörter auszugeben sind, deren Erkennungszuverlässigkeitsgrade als höher als der Schwellenwert bestimmt worden sind, oder ein Wieder-Äußern der einen oder mehreren Wörter, deren Erkennungszuverlässigkeitsgrade als niedriger als der Schwellenwert bestimmt worden sind, zu verlangen.
  2. Spracherkennungsvorrichtung gemäß Anspruch 1, dadurch gekennzeichnet, dass, wenn eine Wiederäußerung des einen oder mehreren Worten durch die Anwenderschnittstellen bereitstellende Einheit ausgewählt ist, die Schwellenwerteinstelleinheit eine Anzahl von Malen zählt, die eine Wiederäußerung gemacht worden ist, die Anzahl mit einem Referenzwert vergleicht und den Schwellenwert anhand eines Vergleichsergebnisses aktualisiert.
  3. Spracherkennungsvorrichtung gemäß Anspruch 1, dadurch gekennzeichnet, dass die Schwellenwerteinstelleinheit einen durch einen Anwender über die Anwenderschnittstellen bereitstellende Einheit eingegebenen Schwellenwert so erfasst, dass der eingestellte Schwellenwert aktualisiert wird.
  4. Spracherkennungsvorrichtung gemäß Anspruch 1, dadurch gekennzeichnet, dass die Schwellenwerteinstelleinheit den Schwellenwert für jedes der erkannten Wörter einstellt, die durch die Wortunterteilungseinheit ausgegeben werden.
  5. Navigationssystem, das eine Spracheingabe eines Bestimmungsortes akzeptiert, um eine Bestimmungsorteinstellung durchzuführen, dadurch gekennzeichnet, dass das Navigationssystem umfasst: eine Spracherkennungseinheit zum Erkennen eines geäußerten Bestimmungsortes als einer Zeichenkette, zum Unterteilen der erkannten Zeichenkette in Wörter, zum Bestimmen, ob ein Erkennungszuverlässigkeitsgrad jedes der unterteilten Wörter höher als ein Schwellenwert ist oder nicht und zum Ausgeben eines Erkennungsergebnisses, wenn festgestellt wird, dass der Erkennungszuverlässigkeitsgrad höher als der Schwellenwert ist; und eine Bestimmungsorteinstellprozesseinheit zum Einstellen des Schwellenwerts, der zur Bestimmung des Erkennungszuverlässigkeitsgrads verwendet wird, und zum, wenn die Zuverlässigkeitsbestimmungseinheit bestimmt, dass der Erkennungszuverlässigkeitsgrad eines der Wörter niedriger als der Schwellenwert ist, Bestimmen, ob ein Bestimmungsorteinstellen auf Basis von Worten, deren Erkennungszuverlässigkeitsgrad als höher als der Schwellenwert bestimmt worden ist, durchzuführen ist, oder der Schwellenwert zu ändern ist und das wieder Äußern des Wortes zu verlangen, dessen Erkennungszuverlässigkeitsgrad als niedriger als der Schwellenwert bestimmt worden ist, und dann die Spracherkennung durch die Spracherkennungseinheit zu wiederholen und das Bestimmungsorteinstellen unter Verwendung eines Ergebnisses der Erkennung durchzuführen.
DE112008001763T 2007-07-09 2008-04-03 Spracherkennungsvorrichtung und Navigationssystem Withdrawn DE112008001763T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2007180022 2007-07-09
JP2007-180022 2007-07-09
PCT/JP2008/000863 WO2009008115A1 (ja) 2007-07-09 2008-04-03 音声認識装置およびナビゲーションシステム

Publications (1)

Publication Number Publication Date
DE112008001763T5 true DE112008001763T5 (de) 2010-04-29

Family

ID=40228309

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112008001763T Withdrawn DE112008001763T5 (de) 2007-07-09 2008-04-03 Spracherkennungsvorrichtung und Navigationssystem

Country Status (3)

Country Link
JP (1) JPWO2009008115A1 (de)
DE (1) DE112008001763T5 (de)
WO (1) WO2009008115A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215631A (zh) * 2017-07-05 2019-01-15 松下知识产权经营株式会社 语音识别方法、程序、语音识别装置和机器人

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101928904B1 (ko) 2010-02-08 2018-12-14 필립스 아이피 벤쳐스 비.브이. 기생 금속 검출 시스템을 교정하는 방법 및 기생 금속 검출 시스템에 대한 교정 데이터를 수집하는 방법
CN102543082B (zh) * 2012-01-19 2014-01-15 北京赛德斯汽车信息技术有限公司 使用自然语言的车载信息服务系统语音操作方法及系统
KR101598948B1 (ko) * 2014-07-28 2016-03-02 현대자동차주식회사 음성 인식 장치, 이를 포함하는 차량 및 음성 인식 방법
JP6716968B2 (ja) * 2016-03-07 2020-07-01 株式会社デンソー 音声認識装置、音声認識プログラム
JP6997437B2 (ja) * 2017-10-25 2022-01-17 株式会社パロマ 加熱調理器
JP6999236B2 (ja) * 2018-04-02 2022-01-18 アルパイン株式会社 音声認識システム
CN111754995B (zh) * 2019-03-29 2024-06-04 株式会社东芝 阈值调整装置、阈值调整方法以及记录介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005157166A (ja) 2003-11-28 2005-06-16 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210199A (ja) * 1994-01-20 1995-08-11 Hitachi Ltd 音声符号化方法および音声符号化装置
JP3616126B2 (ja) * 1994-01-28 2005-02-02 松下電器産業株式会社 特殊範囲抽出装置および文抽出装置
JP3454897B2 (ja) * 1994-01-31 2003-10-06 株式会社日立製作所 音声対話システム
JP4128342B2 (ja) * 2001-07-19 2008-07-30 三菱電機株式会社 対話処理装置及び対話処理方法並びにプログラム
JP3945778B2 (ja) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法
CN101111885A (zh) * 2005-02-04 2008-01-23 株式会社查纳位资讯情报 使用抽出的声音数据生成应答声音的声音识别系统
JP2006317573A (ja) * 2005-05-11 2006-11-24 Xanavi Informatics Corp 情報端末
JP4735958B2 (ja) * 2005-07-21 2011-07-27 日本電気株式会社 テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム
JP4680714B2 (ja) * 2005-08-03 2011-05-11 パナソニック株式会社 音声認識装置および音声認識方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005157166A (ja) 2003-11-28 2005-06-16 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215631A (zh) * 2017-07-05 2019-01-15 松下知识产权经营株式会社 语音识别方法、程序、语音识别装置和机器人

Also Published As

Publication number Publication date
WO2009008115A1 (ja) 2009-01-15
JPWO2009008115A1 (ja) 2010-09-02

Similar Documents

Publication Publication Date Title
DE112008001763T5 (de) Spracherkennungsvorrichtung und Navigationssystem
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE69737987T2 (de) Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung
DE69721939T2 (de) Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung
DE69721938T2 (de) Verfahren und System zum Anzeigen einer variabelen Anzahl alternativer Wörter während der Spracherkennung
DE112014002819B4 (de) System und Verfahren zur Erkennung von Sprache
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE69725172T2 (de) Verfahren und gerät zum erkennen von geräuschsignalproben aus einem geräusch
DE112014007015T5 (de) Spracherkennungssystem
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE112010005168B4 (de) Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE102014207437B4 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
WO2005088607A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE102006045719B4 (de) Medizinisches System mit einer Spracheingabevorrichtung

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
R084 Declaration of willingness to licence
R016 Response to examination communication
R120 Application withdrawn or ip right abandoned