DE19907759A1 - Verfahren und Einrichtung zur Buchstabiererkennung - Google Patents

Verfahren und Einrichtung zur Buchstabiererkennung

Info

Publication number
DE19907759A1
DE19907759A1 DE1999107759 DE19907759A DE19907759A1 DE 19907759 A1 DE19907759 A1 DE 19907759A1 DE 1999107759 DE1999107759 DE 1999107759 DE 19907759 A DE19907759 A DE 19907759A DE 19907759 A1 DE19907759 A1 DE 19907759A1
Authority
DE
Germany
Prior art keywords
letter
letters
alphabet
sequence
anton
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE1999107759
Other languages
English (en)
Other versions
DE19907759C2 (de
Inventor
Peter Schneider
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Germany Holding GmbH
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE1999107759 priority Critical patent/DE19907759C2/de
Publication of DE19907759A1 publication Critical patent/DE19907759A1/de
Application granted granted Critical
Publication of DE19907759C2 publication Critical patent/DE19907759C2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling

Abstract

Ein Verfahren zur Spracherkennung einer Buchstabenfolge umfaßt einen Buchstaben-Erkennungsmodus M1 und einen Alphabetwort-Erkennungsmodus M2. In M1 wird ein Sprachsignal analysiert, dem ein gesprochener Buchstabe zugrundeliegt, während in M2 ein Sprachsignal analysiert wird, dem ein gesprochenes, einem Buchstaben zugeordnetes Alphabetwort zugrundeliegt. Bei Eintritt einer vordefinierten Bedienung wird von einem ersten der beiden genannten Erkennungsmoden in den anderen Erkennungsmodus übergewechselt.

Description

Die Erfindung betrifft ein Verfahren und eine Einrichtung zur Spracherkennung einer insbesondere ein Wort repräsentierenden Folge von Buchstaben.
Es ist bereits bekannt, Spracherkennungstechniken zur Erken­ nung einzelner Buchstaben einzusetzen. Beispielsweise weisen (auf der Erkennung von Wörtern oder Silben basierende) Dik­ tiersysteme häufig einen Buchstabiermodus auf, der den Benut­ zer bei Nichterkennung eines Wortes dazu auffordert, das Wort buchstabenweise auszusprechen.
Andere bekannte Spracherkennungsanwendungen basieren a-priori auf einer buchstabenweisen Eingabe eines Wortes. Als Bei­ spiel sei ein Navigationssystem für ein Kraftfahrzeug mit Spracheingabe von Zielinformation genannt. Das Navigations­ system muß eine sehr große Anzahl von teilweise ähnlich klin­ genden Wörtern (Städtenamen, Straßennamen, Hotel- und Gast­ stättennamen, usw.) unterscheiden können. In der Praxis ist dies zumeist nur durch eine buchstabenweise Eingabe des Wor­ tes mit hinreichender Sicherheit erreichbar.
Aus der US 5,638,425 ist beispielsweise ein automatisches Auskunftssystem für Telefonbucheinträge bekannt, das Worter­ kennung, Phonemerkennung und Buchstabenerkennung verwendet.
Systeme, die einzelne, gesprochene Buchstaben erkennen, wer­ den als Buchstabiererkenner bezeichnet.
Ein Buchstabiererkenner kann auf unterschiedliche Weise ar­ beiten. Eine erste Möglichkeit besteht darin, daß der Benut­ zer den Buchstaben als solchen in seiner sprachüblichen Form ausspricht, also "a" für a, "be" für b, "ce" für c, usw. Dieses Verfahren ist für den Benutzer bequem, jedoch kann - insbesondere bei durch Hintergrundgeräusche erschwerten Ein­ satzbedingungen - die sichere Erkennung der einzelnen Buch­ staben Probleme bereiten.
Eine zweite Möglichkeit der Erkennung von Buchstaben besteht darin, daß anstelle des einzelnen Buchstabens von dem Benut­ zer ein dem jeweiligen Buchstaben zugeordnetes Alphabetwort (z. B. "Anton" für a, "Berta" für b, "Cäsar" für c, usw.) aus­ zusprechen ist. Die Alphabetwörter für a bis z werden in Analogie zum Buchstabenalphabet auch als Wortalphabet be­ zeichnet. Auf einem Wortalphabet basierende Buchstabierer­ kenner weisen gute Erkennungseigenschaften auf. Nachteilig ist jedoch, daß die meisten Menschen ein solches Wortalphabet nicht vollständig beherrschen.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Einrichtung zur Spracherkennung einer Buchstabenfolge anzugeben, das bzw. die eine gute Erkennungsleistung aufweist und gleichzeitig für einen Benutzer bequem zu handhaben ist.
Zur Lösung der Aufgabe sind die Merkmale der Ansprüche 1 und 8 vorgesehen.
Durch die erfindungsgemäße Kombination und funktionelle Ver­ knüpfung des Buchstaben-Erkennungsmodus und des Alphabetwort- Erkennungsmodus wird erreicht, daß gemäß der vordefinierten Bedingung derjenige Modus zur Buchstabenerkennung eingesetzt werden kann, der aktuell (d. h. in der konkreten Situation) die günstigeren Eigenschaften bietet.
Eine Buchstabenfolge im Sinne der Erfindung kann durch die Buchstabenabfolge eines Wortes definiert sein. Von der Er­ findung sind jedoch auch Buchstabenfolgen umfaßt, die kein Wort im sprachüblichen Sinne ergeben. Ferner kann die Buch­ stabenfolge auch als eine in eine andere Folge gesprochener Symbole "eingestreute" Buchstabenfolge realisiert sein, wie dies beispielsweise bei einer Spracheingabe von alternieren­ den Buchstaben/Zahlen-Koordinateneingabedaten für einen Fer­ tigungsautomaten der Fall ist.
Nach einer ersten bevorzugten Ausführungsform des erfindungs­ gemäßen Verfahrens befindet sich dieses zunächst im Buchsta­ ben-Erkennungsmodus, und ein Umschalten von dem Buchstaben- Erkennungsmodus in den Alphabetwort-Erkennungsmodus erfolgt immer und unmittelbar dann, wenn im Buchstaben-Erkennungsmo­ dus ein Buchstabe vermutlich oder sicher nicht richtig er­ kannt worden ist. Folglich wird der für den Benutzer unbe­ quemere Alphabetwort-Erkennungsmodus in ökonomischer Weise nur dann eingesetzt, wenn er für eine sichere Erkennung eines Buchstabens auch tatsächlich benötigt wird.
Nach einer weiteren bevorzugten Ausführungsform der Erfin­ dung, bei der sich das Verfahren ebenfalls zunächst im Buch­ staben-Erkennungsmodus befindet, tritt ein Übergang von dem Buchstaben-Erkennungsmodus in den Alphabetwort-Erkennungs­ modus dann ein, wenn im Buchstaben-Erkennungsmodus nach Er­ halt einer Buchstabenteilfolge vordefinierter Länge oder der gesamten Buchstabenfolge eine eindeutige Zuordnung der er­ kannten Buchstabenteilfolge oder Buchstabenfolge zu einer Buchstabenfolge aus einem Vokabular vorgegebener Buchstaben­ folgen nicht oder nicht mit hinreichender Sicherheit möglich ist. Anders als bei der ersten Ausführungsform tritt hier ein Übergang in den Alphabetwort-Erkennungsmodus nicht schon bei Nichterkennung oder zweifelhafter Erkennung eines Buch­ stabens im Buchstaben-Erkennungsmodus auf. Vielmehr ver­ bleibt das Verfahren - auch bei zweifelhafter Erkennung oder Nichterkennung eines Buchstabens - zunächst im Buchstaben- Erkennungsmodus, bis entweder eine vorgegebene Anzahl von Buchstaben erhalten wurde, oder bis die gesamte Buchstaben­ folge erhalten wurde. (Letzteres kann anhand des Ausbleibens weiterer Sprachäußerungen oder durch den Erhalt eines verein­ barten Wortende-Befehls erkennbar sein.) Erst dann wird ent­ schieden, ob in den Alphabetwort-Erkennungsmodus gewechselt werden soll. Ein Wechsel ist jedoch nur dann erforderlich, wenn auf der Grundlage der bisher erkannten Buchstaben keine eindeutige Zuordnung zu einer der vorgegebenen Buchstabenfol­ gen des Vokabulars möglich (d. h. mit hinreichender Treffersi­ cherheit durchführbar) ist.
Der Bedienungskomfort des erfindungsgemäßen Verfahrens kann in vorteilhafter Weise dadurch erhöht werden, daß dem Benut­ zer die Möglichkeit der Definition von "eigenen" Alphabetwör­ tern eingeräumt wird.
Der Bedienungskomfort kann ferner erhöht werden, indem mehre­ re unterschiedliche Alphabetwörter einem einzelnen Buchstaben zugeordnet werden können. Der Benutzer hat dann mehrere Mög­ lichkeiten, einen Buchstaben im Alphabetwort-Erkennungsmodus zu benennen.
Mit besonderem Vorteil kommt die erfindungsgemäße Einrichtung in einem Navigationssystem für ein Fortbewegungsmittel, ins­ besondere Kraftfahrzeug (Kfz) zum Einsatz, da aufgrund der einfachen Eingabemöglichkeit von Zielinformation in die Ein­ richtung die Aufmerksamkeit des Fahrers von der Eingabeproze­ dur nur in geringem Maße in Anspruch genommen wird.
Weitere vorteilhafte Ausführungen und Ausgestaltungen der Er­ findung sind in den Unteransprüchen angegeben.
Die Erfindung wird nachfolgend in beispielhafter Weise anhand der Zeichnung erläutert; in dieser zeigt:
Fig. 1 eine tabellarische Darstellung zur Erläuterung der beiden Erkennungsmoden bei Eingabe einer Buchstaben­ folge (a, b);
Fig. 2 ein Blockschaltbild einer Einrichtung nach der Erfin­ dung;
Fig. 3a ein Blockdiagramm zur Erläuterung des Ablaufs einer ersten Ausführungsform des erfindungsgemäßen Verfah­ rens; und
Fig. 3b ein Blockdiagramm zur Erläuterung des Ablaufs einer zweiten Ausführungsform des erfindungsgemäßen Verfah­ rens.
Fig. 1 erläutert einen Buchstaben-Erkennungsmodus M1 und ei­ nen Alphabetwort-Erkennungsmodus M2 am Beispiel der Eingabe einer Buchstabenfolge (a, b).
Im Buchstaben-Erkennungsmodus M1 werden die Buchstaben a und b sprachüblich ausgesprochen, d. h. lauten (in deutscher Spra­ che) "a" bzw. "be".
Basierend auf den gesprochenen Buchstaben "a" und "be" wird mittels eines Mikrophons/Verstärkers ein elektrisches Sprach­ signal S("a") bzw. S("be") erzeugt.
Das erhaltene elektrische Sprachsignal S("a") bzw. S("be") wird nachfolgend zur Erkennung des dem Sprachsigal im Buch­ staben-Erkennungsmodus zugrundeliegenden Buchstabens a, b analysiert. Zur Analyse des elektrischen Sprachsignals S("a") bzw. S("be") kann ein Korrelator verwendet werden, der das erhaltene (elektrische) Spachsignal S("a") bzw. S("be") mit Referenz-Sprachsignalen vergleicht, die den einzelnen Buchstaben a bzw. b zugeordnet sind. Die Referenz-Sprach­ signale können vordefiniert sein und/oder im Rahmen eines beispielsweise bei der Erstinbetriebnahme erfolgenden Trai­ ningsschrittes vom Benutzer eingegeben werden. Letztere Mög­ lichkeit bietet eine benutzeradaptierte Buchstabenerkennung.
Als erkannter Buchstabe â bzw. wird derjenige Buchstabe des Alphabets bestimmt, dessen Referenz-Sprachsignal die größte Korrelation mit dem erhaltenen, elektrischen Sprachsi­ gnal S("a") bzw. S("be") aufweist. Beim Buchstabenerken­ nungsschritt wird in der Regel ferner eine Zuverlässig­ keitsinformation oder Vertrauenszahl P(â) bzw. P() be­ stimmt, die ein Vertrauensmaß für die Richtigkeit der Erken­ nung (d. h. â = a bzw. = b) darstellt.
Die Vertrauenszahl P(â) bzw. P() kann beispielsweise abhän­ gig von dem Absolutwert der Korrelation des erhaltenen Sprachsignals S("a") bzw. S("be") mit dem Referenz-Sprach­ signal des erkannten Buchstabens â bzw. und/oder von einem Abstand zwischen dem maximalen Korrelationswert (bzgl. des erkannten Buchstabens) und dem nächstkleineren Korrelations­ wert (bzgl. des nächstähnlich klingenden Buchstabens) berech­ net werden. Während ersteres ein Maß für die absolute "Klang­ übereinstimmung" darstellt, ist zweiteres ein Maß für die "Verwechslungsgefahr".
Bei hoher absoluter "Klangübereinstimmung" und geringer" Ver­ wechslungsgefahr" kann beispielsweise mit hoher Wahrschein­ lichkeit von einer korrekten Buchstabenerkennung ausgegangen werden. Im gegenteiligen Fall muß eine falsche Buchstabener­ kennung befürchtet werden.
Die Buchstabenerkennung im Alphabetwort-Erkennungsmodus M2 unterscheidet sich von der Erkennung in M1 lediglich dadurch, daß anstelle eines gesprochenen Buchstabens ein gesprochenes Wort eines Wortalphabets, z. B. "Anton", "Berta" usw. verwen­ det wird, und daß das erhaltene elektrische Sprachsignal S("Anton") bzw. S("Berta") natürlich eine entsprechend andere (eine höhere Erkennungswahrscheinlichkeit ermöglichende) elektrische Signalform aufweist.
Fig. 2 zeigt ein Blockschaltbild einer Einrichtung zur Durch­ führung des erfindungsgemäßen Verfahrens. Eine Mikrophon/Ver­ stärkeranordnung 1 nimmt ein akustisches Signal für den Buchstaben a in Form des gesprochenen Buchstabens/Alphabet­ wortes entgegen. An einem Ausgang der Mikrophon/Verstärker­ anordnung 1 steht das erhaltene elektrische Sprachsignal be­ reit. Ein Buchstabiererkenner 2 nimmt das erhaltene elektri­ sche Sprachsignal entgegen und stellt an seinem Ausgang den erkannten Buchstaben â sowie ggf. die zugehörige Vertrauens­ zahl P(â) bereit. Der Buchstabiererkenner 2 kann abhängig von einer Bedingung X in dem Buchstaben-Erkennungsmodus M1 (bei X = 0) oder in dem Alphabetwort-Erkennungsmodus (bei X = 1) arbeiten. Die Bedingungsentscheidung X = 0 oder X = 1 kann im Buchstabiererkenner 2 selbst oder anderswo (gemäß der gestrichelten Linie der vorliegender Darstellung beispiels­ weise in einem Vergleicher/Zuordner 4) getroffen werden.
Der erkannte Buchstabe â und ggf. auch die zugehörige Ver­ trauenszahl P(â) wird in einem freien Speicherplatz eines Zwischenwertspeichers 3 abgelegt.
Anschließend wird der nächste Buchstaben b der zu erkennenden Buchstabenfolge als gesprochener Buchstabe/gesprochenes Al­ phabetwort entgegengenommen und im Erkennungsmodus M1 (bei X = 0) oder M2 (bei X = 1) analysiert. Der erkannte Buchstabe und ggf. die Vertrauenszahl P() werden in dem nächsten freien Speicherplatz des Zwischenwertspeichers 3 abgelegt, und der beschriebene Ablauf wiederholt sich entweder für die gesamte zu erkennende Buchstabenfolge oder bis zum Eintritt einer Abbruchbedingung.
Während des beschriebenen Ablaufs wird der Zwischenwertspei­ cher 3 bei jeder Neuerkennung eines Buchstabens â, , . . . durch einen Vergleicher/Zuordner 4 ausgelesen. Der Verglei­ cher/Zuordner 4 vergleicht den aktuellen Zwischenwertspei­ cherinhalt mit vorgegebenen Buchstabenfolgen, die in einem Vokabularspeicher 5 abgelegt sind. Sobald der aktuelle Zwi­ schenwertspeicherinhalt eine "eindeutige" Zuordnung zu einer der vorgegebenen Buchstabenfolgen gestattet, wird die Ab­ bruchbedingung gesetzt und die aufgefundene vorgegebene Buch­ stabenfolge an einem Ausgang A des Vergleichers/Zuordners 4 ausgegeben.
Der Begriff "eindeutige" Zuordnung besagt, daß der Verglei­ cher/Zuordner 4 auf der Grundlage der erkannten Buchstaben â, , . . . und ggf. auch der jeweiligen Vertrauenszahlen P(â), P(), . . . sowie anderer Kenntnis mit einer hinreichen­ den, vorgegebenen Sicherheit ausschließen kann, daß auch noch andere als die eine aufgefundene vorgegebene Buchstabenfolge als gesprochene Buchstabenfolge in Frage kommt. Im einfach­ sten Fall kann sich der entsprechende Zuordnungsalgorithmus in einem einfachen Abgleich der erkannten aktuellen Buchsta­ ben(teil)folge mit den im Vokabularspeicher 5 abgelegten vor­ gegebenen Buchstabenfolgen ohne Berücksichtigung der Vertrau­ enszahlen erschöpfen. Im allgemeinen werden jedoch lei­ stungsfähigere Zuordnungsalgorithmen verwendet, die neben der erkannten Buchstaben(teil)folge â, , . . . auch weitere In­ formationen wie beispielsweise die Vertrauenszahlen P(â), P(), . . . berücksichtigen. In diesem Fall ist nicht ausge­ schlossen, daß auch bei einer fehlerhaften Erkennung einzel­ ner Buchstaben, eine "eindeutige", Zuordnung einer vorgegebenen Buchstabenfolge gegeben sein kann (beispielsweise bei langen Buchstabenfolgen, die trotz eines oder mehrerer fehlerhaft erkannter Buchstaben eine eindeutige Zuordnung gestatten). Andererseits kann auch bei einer vollständig korrekten Erken­ nung aller Buchstaben der Fall auftreten, daß (neben der richtig erkannten vorgegebenen Buchstabenfolge) weitere al­ ternative Buchstabenfolgen - aufgrund hoher Klangähnlichkeit - nicht ausgeschlossen werden können. Die Zuordnung ist dann trotz richtiger Buchstabenerkennung nicht "eindeutig" im Sin­ ne des verwendeten Zuordnungsalgorithmus.
Im folgenden werden anhand der Ablaufdiagramme der Fig. 3a und 3b zwei spezielle Ausführungsformen des erfindungsgemäßen Verfahrens erläutert.
Nach Fig. 3a spricht der Benutzer zunächst den ersten Buch­ staben der von ihm gewünschten Buchstabenfolge aus.
Im nächsten Schritt wird der Erkennungsmodus M1 oder M2 ein­ gestellt, der auf das erhaltene elektrische Sprachsignal an­ zuwenden ist. Bei X = 0 wird M1 und bei X = 1 wird M2 einge­ stellt. Da das System hier mit X = 0 initialisiert ist, ist der Buchstaben-Erkennungsmodus M1 vorgewählt.
Es folgt die bereits beschriebene Analyse des elektrischen Sprachsignals im Rahmen von M1. Dabei wird ein erkannter Buchstabe und die Vertrauenszahl ermittelt.
Im nächsten Schritt wird entschieden, ob gemäß der Vertrau­ enszahl mit ausreichender Sicherheit von einer richtigen Er­ kennung des Buchstabens ausgegangen werden kann. Ist dies der Fall, wird der erkannte Buchstabe und ggf. die Vertrau­ enszahl dem Zwischenwertspeicher 3 zugeleitet. Andernfalls wird X = 1 gesetzt, der erkannte Buchstaben verworfen, und der Benutzer aufgefordert, den gleichen Buchstaben - nun aber als Alphabetwort - zu wiederholen.
Da nunmehr X = 1 gilt, wird dieses Alphabetwort im Alphabet­ wort-Erkennungsmodus M2 analysiert, d. h. ein erkannter Buch­ stabe und die zugehörige Vertrauenszahl ermittelt.
Bei ausreichend sicherer richtiger Erkennung (welche in M2 auch unter erschwerten Bedingungen wie z. B. Umgebungslärm möglich ist) wird der erkannte Buchstabe in dem Zwischenwert­ speicher abgelegt, es wird X = 0 entschieden und der Benutzer wird aufgefordert, den nächsten Buchstaben - nun wieder als sprachüblich gesprochenen Buchstaben - zu nennen. Andern­ falls wird der Benutzer aufgefordert, das Alphabetwort zu wiederholen.
Bei dem anhand Fig. 3a beschriebenen Ablauf wird also eine Überprüfung und ggf. Korrektur jedes im Buchstaben-Erken­ nungsmodus M1 nicht mit hinreichender Sicherheit erkannten Buchstabens im Alphabetwort-Erkennungsmodus durchgeführt.
Der in Fig. 3b veranschaulichte Ablauf ist mit dem vorstehend beschriebenen in den als Block 1 bezeichneten anfänglichen Schritten identisch.
Nach der M1-Analyse wird der erkannte Buchstabe und die zuge­ hörige Vertrauenszahl in den Zwischenwertspeicher 3 übertra­ gen. Durch sukzessives Aussprechen der weiteren Buchstaben der Buchstabenfolge werden die beschriebenen Schritte (im Er­ kennungsmodus M1) zyklisch wiederholt.
Gleichzeitig wird bei jedem neu erkannten Buchstaben ein Ver­ gleich der aktuellen Zwischenwertspeicherinformation mit den im Vokabularspeicher 5 abgelegten, vorgegebenen Buchstaben­ folgen durchgeführt.
Falls bei dem Vergleich zu irgendeinem Zeitpunkt eine eindeu­ tige Zuordnung zu einer vorgegebenen Buchstabenfolge festge­ stellt wird, wird der Prozeß sofort beendet und die gefundene vorgegebene Buchstabenfolge dem Benutzer zur Bestätigung ih­ rer Richtigkeit mitgeteilt. In diesem Fall verbleibt der Buchstabiererkenner 2 während des gesamten Ablaufs im Buch­ staben-Erkennungsmodus M1, d. h. die Bedingung X = 1 für einen Übergang von M1 zu M2 tritt nicht ein.
Sofern auch nach Erhalt aller Buchstaben der Buchstabenfolge noch keine eindeutige Zuordnung gefunden wurde, kann dies - unter anderem - auf eine falsche oder nicht mit hinreichender Sicherheit mögliche Erkennung einzelner Buchstaben zurückzu­ führen sein. Die Zahl der für eine Zuordnung noch in Frage kommenden, vorgegebenen Buchstabenfolgen des Vokabulars ist in der Regel jedoch bereits stark eingeschränkt und beträgt in der Praxis selten mehr als 3. Ferner kann bei Verwendung geeigneter Vergleichs- und Zuordnungsalgorithmen mit sehr ho­ her Wahrscheinlichkeit davon ausgegangen werden, daß unter den verbliebenen Buchstabenfolge - sofern im Vokabular ent­ halten - auch die richtige ist.
Daher wird in diesem Fall vom Vergleicher/Zuordner 4 jener Buchstaben der erkannten Buchstabenfolge ausgewählt, dessen richtige Erkennung (beispielsweise gemäß dem Wert der Ver­ trauenszahl, anderer, z. B. semantischer Kriterien und unter Berücksichtigung der bei der Zuordnung verbliebenen Möglich­ keiten von vorgegebenen Buchstabenfolgen) am zweifelhaftesten erscheint.
Es wird von X = 0 auf X = 1 umgeschaltet und der Benutzer wird um Wiederholung dieses ausgewählten Buchstabens in Form eines Alphabetwortes gebeten.
Zur Unterstützung des Benutzers kann vorgesehen sein, daß diesem die Alternativen möglicher Alphabetwörter vorgeschla­ gen, d. h. mittels einer Sprachausgabe "vorgesprochen" werden: Beispielsweise sei angenommen, daß der italienische Städtename Padua (d. h. die Buchstabenfolge (p, a, d, u, a)) erkannt wer­ den sollte, im Vergleicher/Zuordner 4 nach Erhalt aller Buch­ staben jedoch nicht mit hinreichender Sicherheit ermittelt werden konnte, ob das Wort Padua oder das Wort Pavia der Spracheingabe zugrundelag. Die Einrichtung kann nun dem Be­ nutzer das Erkennungsproblem über eine Sprachausgabe be­ schreiben und anschließend als Alternative anbieten: "Sagen Sie Dora oder Victor" (für d entsprechend Padua oder v ent­ sprechend Pavia).
Mittels des daraufhin erhaltenen und im Alphabetwort-Erken­ nungsmodus M2 sicher analysierten Alphabetwortes (Dora) kann im Vergleicher/Zuordner 4 problemlos die richtige Buchstaben­ folge ((p, a, d, u, a)) aus den verbliebenen Buchstabenfolgen ausgewählt werden.
Die beiden anhand der Fig. 3a und 3b beschriebenen Ausfüh­ rungsformen sind in vielfältiger Weise kombinierbar. Bei­ spielsweise kann die bei der zweiten Ausführungsform be­ schriebene gezielte Abfrage eines oder mehrerer Buchstaben zum abschließenden Auffinden der richtigen Buchstabenfolge auch bei der ersten Ausführungsform angewendet werden.
Darüber hinaus besteht eine große Anzahl weiterer Modifika­ tionsmöglichkeiten des erfindungsgemäßen Verfahrens, von de­ nen besonders auf die folgenden hingewiesen wird:
Der Eintritt der Bedingung X = 1 kann neben den hier bei­ spielhaft erwähnten Möglichkeiten (im Buchstabiererkenner 2 und/oder im Vergleicher/Zuordner 4) auch durch andere geeig­ nete Einrichtungen und in Abhängigkeit von anderen Ereignis­ sen entschieden oder mitbeeinflußt werden. Beispielsweise kann vorgesehen sein, daß bei einem Ansteigen des Umgebungs­ geräuschpegels über eihe Toleranzlärmschwelle in den Erken­ nungsmodus M2 umgeschaltet wird. In diesem Fall ist der Ein­ tritt der Bedingung X = 1 von einem externen Ereignis abhän­ gig.
Ferner ist auch möglich, daß die Einrichtung anfänglich (d. h. bei der Spracheingabe des ersten Buchstabens der Buchstaben­ folge) im Alphabetwort-Erkennungsmodus M2 vorliegt und bei Eintritt einer vordefinierten Bedingung (beispielsweise: nach Erhalt einer vorgegebenen Anzahl von Buchstaben) in den Buch­ staben-Erkennungsmodus M1 übergeht. Dieser Ablauf kann bei­ spielsweise dann günstig sein, wenn eine richtige Erkennung der ersten Buchstaben in Hinblick auf den nachfolgend durch­ zuführenden Vergleichs/Zuordnungsschritt wichtiger als eine richtige Erkennung später auftretender Buchstaben der Buch­ stabenfolge ist.
Selbstverständlich kann dem erfindungsgemäßen Verfahren ein nicht buchstabenweise arbeitender Wort- oder Silbenerken­ nungsmodus (zur Erkennung ganzer Wörter und/oder Silben) vor­ ausgehen, mittels dem eine effiziente erste "Vorverkleine­ rung" eines Ausgangsvokabulars geschaffen werden kann.
Bezugszeichenliste
1
Mikrophon/Verstärkeranordnung
2
Buchstabiererkenner
3
Zwischenwertspeicher
4
Vergleicher/Zuordner
5
Vokabularspeicher
X Bedingung
A Ausgang
M1 Buchstaben-Erkennungsmodus
M2 Alphabetwort-Erkennungsmodus

Claims (10)

1. Verfahren zur Spracherkennung einer Buchstabenfolge (a, b, c), das
  • - einen Buchstaben-Erkennungsmodus (M1) mit den Schritten:
    • - Warten auf ein Buchstaben-Sprachsignal (S("a"); S("be"); S("ce")), dem ein gesprochener Buchstabe ("a"; "be"; "ce") zugrundeliegt;
    • - Entgegennehmen und Analysieren des Buchstaben-Sprachsig­ nals (S("a"); S("be"); S("ce")), um eine Erkennung des Buchstabens (a; b; c) zu erreichen; und
  • - einen Alphabetwort-Erkennungsmodus (M2) mit den Schritten:
    • - Warten auf ein Alphabetwort-Sprachsignal (S("Anton"); S("Berta"); S("Cäsar")), dem ein einem Buchstaben (a; b; c) zugeordnetes, gesprochenes Alphabetwort ("Anton"; "Ber­ ta"; "Cäsar") zugrundeliegt; und
    • - Entgegennehmen und Analysieren des Alphabetwort-Sprach­ signals (S("Anton"); ; S("Berta"); S("Cäsar")), um eine Er­ kennung des Buchstabens (a; b; c) zu erreichen;
umfaßt, wobei
  • - bei Eintritt einer vordefinierten Bedingung (X = 1) von ei­ nem ersten der beiden genannten Erkennungsmoden in den an­ deren Erkennungsmodus übergegangen wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß es sich bei dem ersten Erkennungsmodus um den Buchstaben- Erkennungsmodus (M1) handelt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die vordefinierte Bedingung (X = 1) unmittelbar eintritt, wenn im Buchstaben-Erkennungsmodus (M1) ein Buchstabe (a; b; c) nicht mit hinreichender Sicherheit erkannt wird.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die vordefinierte Bedingung (X = 1) eintritt, wenn nach Erhalt einer Buchstabenteilfolge vordefinierter Länge oder der gesamten Buchstabenfolge eine eindeutige Zuordnung der erkannten Buchstabenteilfolge oder Buchstabenfolge (â, , ) zu einer Buchstabenfolge (a, b, c) aus einem Vokabular vorgegebener Buchstabenfolgen nicht mit hinreichender Sicher­ heit möglich ist.
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Alphabetwörter (Anton, Berta, Cäsar) benutzerdefi­ nierbar sind.
6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß mehrere unterschiedliche Alphabetwörter (Anton; Alpha; Alfred) einem Buchstaben (a) zugeordnet werden können.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß dem Benutzer bei Eintritt der vordefinierten Bedingung (X = 1) durch eine Sprachausgabe alternative Möglichkeiten für ein zu sprechendes Alphabetwort (Anton; Berta; Cäsar) mitge­ teilt werden.
8. Einrichtung zur Spracherkennung einer Buchstabenfolge (a, b, c),
  • - mit einem ersten Buchstabiererkenner (2), der mittels eines auf einem gesprochenen Buchstaben ("a"; "be"; "ce") basie­ renden Buchstaben-Sprachsignals (S("a"); S("be"); S("ce")) eine Erkennung des Buchstabens (a; b; c) versucht,
  • - mit einem zweiten Buchstabiererkenner (2), der mittels ei­ nes auf einem gesprochenen Alphabetwort ("Anton"; "Berta"; "Cäsar") basierenden Alphabetwort-Sprachsignals (S("Anton"); S("Berta"); S("Cäsar")) eine Erkennung des dem gesprochenen Alphabetwort ("Anton"; "Berta"; "Cäsar") zu­ grundeliegenden Buchstabens (a; b; c) versucht, und
  • - mit einer Umschaltlogik (2; 4), die bei Eintritt einer vor­ definierten Bedingung (X = 1) einen aktiven der beiden Buchstabiererkenner (2) deaktiviert und den anderen Buch­ stabiererkenner (2) aktiviert.
9. Einrichtung nach Anspruch 8, dadurch gekennzeichnet, daß bei Eintritt der Bedingung (X = 1) der erste Buchsta­ biererkenner deaktiviert und der zweite Buchstabiererkenner aktiviert wird.
10. Navigationssystem für ein Fortbewegungsmittel, gekennzeichnet durch eine Einrichtung nach Anspruch 8 oder 9 zur Eingabe von Ziel­ ortinformation.
DE1999107759 1999-02-23 1999-02-23 Verfahren und Einrichtung zur Buchstabiererkennung Expired - Lifetime DE19907759C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1999107759 DE19907759C2 (de) 1999-02-23 1999-02-23 Verfahren und Einrichtung zur Buchstabiererkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1999107759 DE19907759C2 (de) 1999-02-23 1999-02-23 Verfahren und Einrichtung zur Buchstabiererkennung

Publications (2)

Publication Number Publication Date
DE19907759A1 true DE19907759A1 (de) 2000-08-31
DE19907759C2 DE19907759C2 (de) 2002-05-23

Family

ID=7898555

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1999107759 Expired - Lifetime DE19907759C2 (de) 1999-02-23 1999-02-23 Verfahren und Einrichtung zur Buchstabiererkennung

Country Status (1)

Country Link
DE (1) DE19907759C2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10036851A1 (de) * 2000-07-28 2002-02-28 Mannesmann Vdo Ag Verfahren zur Auswahl einer Ortsbezeichnung in einem Navigationssystem durch Spracheingabe

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19532114A1 (de) * 1995-08-31 1997-03-06 Deutsche Telekom Ag Sprachdialog-System zur automatisierten Ausgabe von Informationen
DE19709518C1 (de) * 1997-03-10 1998-03-05 Daimler Benz Aerospace Ag Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
DE19742054A1 (de) * 1997-09-24 1999-04-01 Philips Patentverwaltung Eingabesystem wenigstens für Orts- und/oder Straßennamen

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19532114A1 (de) * 1995-08-31 1997-03-06 Deutsche Telekom Ag Sprachdialog-System zur automatisierten Ausgabe von Informationen
DE19709518C1 (de) * 1997-03-10 1998-03-05 Daimler Benz Aerospace Ag Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
DE19742054A1 (de) * 1997-09-24 1999-04-01 Philips Patentverwaltung Eingabesystem wenigstens für Orts- und/oder Straßennamen

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10036851A1 (de) * 2000-07-28 2002-02-28 Mannesmann Vdo Ag Verfahren zur Auswahl einer Ortsbezeichnung in einem Navigationssystem durch Spracheingabe
US6411893B2 (en) 2000-07-28 2002-06-25 Siemens Ag Method for selecting a locality name in a navigation system by voice input

Also Published As

Publication number Publication date
DE19907759C2 (de) 2002-05-23

Similar Documents

Publication Publication Date Title
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
EP1793371B1 (de) Verfahren zur Spracherkennung
DE69829235T2 (de) Registrierung für die Spracherkennung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE10012572C2 (de) Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem
WO2009140781A1 (de) Verfahren zur klassifizierung und entfernung unerwünschter anteile aus einer äusserung bei einer spracherkennung
DE102005030963B4 (de) Verfahren und Vorrichtung zur Bestätigung und/oder Korrektur einer einem Spracherkennungssystems zugeführten Spracheingabe
EP1927980A2 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
WO2006111230A1 (de) Verfahren zur gezielten ermittlung eines vollständigen eingabedatensatzes in einem sprachdialogsystem
EP1085499A2 (de) Erkennung einer in buchstabierter Form vorliegenden Sprachäusserungseingabe
EP1739655A2 (de) Verfahren zur Ermittlung einer Hypothesenliste aus einem Vokabular eines Spracherkennungssystems
EP1238250B1 (de) Spracherkennungsverfahren und -einrichtung
EP1456837B1 (de) Verfahren und vorrichtung zur spracherkennung
EP1078355A1 (de) Verfahren und anordnung zur einführung zeitlicher abhängigkeit in hidden-markov-modellen für die spracherkennung
DE60026366T2 (de) Spracherkennung mit einem komplementären sprachmodel für typischen fehlern im sprachdialog
DE10304460B3 (de) Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
EP1723636A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
DE102005030967B4 (de) Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen
DE19907759C2 (de) Verfahren und Einrichtung zur Buchstabiererkennung
DE60025687T2 (de) Vorrichtung zum Spracherkennung mit Durchführung einer syntaktischen Permutationsregel
EP1063633B1 (de) Verfahren zum Training eines automatischen Spracherkenners
DE102008024257A1 (de) Verfahren zur Sprecheridentifikation bei einer Spracherkennung
DE102004029873B3 (de) Verfahren und Vorrichtung zur intelligenten Eingabekorrektur für automatische Sprachdialogsysteme

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8127 New person/name/address of the applicant

Owner name: INFINEON TECHNOLOGIES AG, 81669 MUENCHEN, DE

8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE

R081 Change of applicant/patentee

Owner name: LANTIQ DEUTSCHLAND GMBH, DE

Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 81669 MUENCHEN, DE

Effective date: 20110325

Owner name: LANTIQ BETEILIGUNGS-GMBH & CO. KG, DE

Free format text: FORMER OWNER: INFINEON TECHNOLOGIES AG, 81669 MUENCHEN, DE

Effective date: 20110325

R081 Change of applicant/patentee

Owner name: LANTIQ BETEILIGUNGS-GMBH & CO. KG, DE

Free format text: FORMER OWNER: LANTIQ DEUTSCHLAND GMBH, 85579 NEUBIBERG, DE

R071 Expiry of right