DE19751123C1 - Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen - Google Patents
Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-EndeinrichtungenInfo
- Publication number
- DE19751123C1 DE19751123C1 DE19751123A DE19751123A DE19751123C1 DE 19751123 C1 DE19751123 C1 DE 19751123C1 DE 19751123 A DE19751123 A DE 19751123A DE 19751123 A DE19751123 A DE 19751123A DE 19751123 C1 DE19751123 C1 DE 19751123C1
- Authority
- DE
- Germany
- Prior art keywords
- name
- word model
- phoneme
- speech
- grapheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Revoked
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
Description
Die Erfindung betrifft eine Vorrichtung und Verfahren zur sprecherunab
hängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen.
Es sind Telefone mit Sprachnamenwahl bekannt, bei welchen durch
akustische Eingabe des Namens eines Netzteilnehmers automatisch eine
Kommunikationsverbindung mit der diesem Namen zugeordneten
Rufnummer eingeleitet wird, indem diese Rufnummer automatisch
angewählt wird. Bekannte Telefone mit Sprachnamenwahl benutzen die
dem Stand der Technik entsprechende sprecherabhängige Namenwahl
unter Verwendung sprecherabhängiger Spracherkenner. Die Verwendung
sprecherabhängiger Spracherkenner setzt voraus, daß die Namen, die per
Namenwahl aktiviert werden sollen, in einer vorgeschalteten Trainings
prozedur durch mehrfaches Vorsprechen angelernt worden sind.
Zweckmäßigerweise werden bei der Durchführung dieser Trainings
prozedur die zu den Namen assoziierten Rufnummer mit eingegeben und in
einem individuellen Namens- und Rufnummernverzeichnis abgelegt. Die
Namen werden in der Einlernphase durch den Nutzer akustisch eingegeben
und als digitalisiertes Sprachsignal gespeichert, wobei im der Anwendungs
fall gesprochene Name mit diesen hinterlegten Namensmustern verglichen
wird und bei Übereinstimmung die dem erkannten Namensmuster
zugeordnete Rufnummer angewählt wird. Für nicht mit den Erfordernissen
der sprecherabhängigen Spracherkennung vertrauten Nutzern stellt die
Trainingsphase allerdings eine hohe interlektuelle Anforderung dar. Daher
werden Telefone, die mit diesem Komfortmerkmal ausgestattet sind, oftmals
falsch bedient.
Die Verwendung eines sprecherabhängigen Spracherkenners führt auch
bei korrekt durchgeführter Einlernphase dazu, daß die Namensmuster
meist nur dann gut wiedererkannt werden, wenn die Person, die das
Training durchgeführt hat, auch der spätere Nutzer des Telefons ist.
Dadurch kann nur die trainierende Person das so angelegte Namens
verzeichnis und damit die automatische Sprachnamenwahl optimal
nutzen. Andere Personen mit anderem individuellem Sprachverhalten
werden deutlich schlechter erkannt.
Der Erfindung liegt daher die Aufgabe zugrunde, die Sprachnamenwahl bei
Telekommunikations-Endeinrichtungen derart zu verbessern, daß ein
einfaches Anlegen des individuellen Namens- und Rufnummernverzeich
nisses sowie im Anwendungsfall eine weitgehend sprecherunabhängige
Erkennung automatisch anzuwählender Namen möglich ist.
Die Aufgabe wird gelöst durch eine Vorrichtung zur sprecherunabhängigen
Sprachnamenwahl für Telekommunikations-Endeinrichtungen, mit
folgenden Merkmalen:
- a) einen Speicher für Rufnummern und Namen, in welchem Namen sowie jeweils die damit assoziierte Rufnummer als ASCII-Text hinterlegt sind;
- b) einen Graphem-Phonem-Umsetzer, welcher aus einem ASCII-Text (Graphemkette) ein digitales Wortmodell (Phonemkette) zu erstellen imstande ist;
- c) einen phonembasierten Spracherkenner, welcher ein gesprochenes, digitalisiertes Sprachsignal mit vorbestimmten digitalen Wortmodellen, deren ASCII-Entsprechung bekannt ist, vergleicht, dasjenige Wortmodell bestimmt, welches die größte Übereinstimmung mit dem Sprachsignal aufweist;
- d) der Speicher ist durch alphanumerische Eingabe von benutzerdefinierten Namen und assoziierten Rufnummern belegbar, wobei der Graphem- Phonem-Umsetzer aus dem eingegebenen Namen ein entsprechendes digitales Wortmodell erstellt, welches zusammen mit dem ASCII-Text oder einem diesem zugeordneten Kode derart gespeichert wird, daß der Spracherkenner darauf zugreifen kann;
- e) zur automatischen Sprachnamenwahl wird ein akustisch eingegebener Name als digitales Sprachsignal dem Spracherkenner übermittelt, von diesem mit vorbestimmten Wortmodellen verglichen, der dem Wortmodell, das mit dem Sprachsignal die größte Übereinstimmung aufweist, entsprechende ASCII-Text oder den diesem zugeordneten Kode ermittelt, welcher zum Abruf der assoziierten Rufnummer aus dem Speicher dient, wobei durch die Sprech- und Wähleinrichtung der Endeinrichtung automatisch eine Telekommunikationsverbindung mit dieser Rufnummer aufgebaut wird.
Verfahrensmäßig ist die Lösung der Aufgabe, das Einrichten des
individuellen Rufnummernverzeichnisses zur Sprachnamenwahl unter
Verwendung der erfindungsgemäßen Vorrichtung dadurch bestimmt, daß
folgende Schritte nacheinander durchgeführt werden:
- a) alphanumerische Eingabe eines oder mehrerer Namen und assoziierter Rufnummern;
- b) Speicherung der eingegebenen Daten im ASCII-Format;
- c) Berechnung eines digitalen Wortmodells des bzw. der Namen auf der Basis des entsprechenden ASCII-Textes durch Graphem-Phonem- Umsetzung;
- d) Speicherung des Wortmodells derart, daß die Zuordnung zum zugrundeliegenden ASCII-Text möglich ist.
Die erfindungsgemäße Lösung beruht darauf, daß dank des Einsatzes
phonembasierter sprecherunabhängiger Spracherkenner ein wie auch
immer geartetes Training ganz entfällt. Das Einrichten des Namens- und
Rufnummernverzeichnisses wird reduziert auf die bekannte Eingabe der
Rufnummer und des Namens in orthografischer Weise über die Tastatur
des Endgerätes. Erfindungsgemäß werden die eingegebenen Informationen
bzw. Buchstaben mittels des Graphem-Phonem-Umsetzers in sprachlich
abrufbare und hörbare Einheiten bzw. Lautzeichen (Phoneme) umgewandelt
und aus einer Graphemkette oder -folge, also einem aus Buchstaben
gebildeten Wort, eine Phonemkette oder -folge aus einer Mehrzahl von
Lautzeichen. Damit werden den eingegebenen Namen entsprechende
standardisierte Wortmodelle gebildet, welche durch die Zusammensetzung
aus Standard-Lauten (Phonemen) aus einer Datenbasis unabhängig von der
Person ist, welche das Rufnummernverzeichnis einrichtet. Damit können
im Anwendungsfall Spracheingaben dieser Person wie auch jedes weiteren
Nutzer mit etwa gleicher Wahrscheinlichkeit erkannt werden.
Da es häufig verschiedene Möglichkeiten gibt, einen geschriebenen Text in
Laute umzusetzen, wird vorzugsweise das vom Graphem-Phonem-
Umsetzer aufgrund der Texteingabe erstellte Wortmodell vor der entgültigen
Speicherung dem Benutzer als synthetisches Sprachsignal über einen
Lautsprecher vorgespielt. Der Benutzer kann dann prüfen, ob das
berechnete Wortmodell die korrekte Wiedergabe des Namens ist und
gegebenenfalls eine alternative Lautumsetzung veranlassen.
Vorzugsweise wird die Graphem-Phonem-Umsetzung durch ein
Ausnahme-Lexikon unterstützt, in welchem phonetischen Eigenarten von
Eigennamen entsprechende Sequenzen hinterlegt sind, welche durch den
Graphem-Phonem-Umsetzer in die Phonemkette eingefügt werden. Damit
können auch die bei Eigennamen häufig auftretenden Abweichungen von
der üblichen Schrift-Laut-Umsetzung bei der Berechnung der Phonemkette
berücksichtigt werden, wodurch die spätere Erkennung des Eigennamens
erleichtert wird. Weiterhin wird die Graphem-Phonem-Umsetzung
vorteilhaft durch eine Onomastika-Datenbank unterstützt, in welcher
Eigennamen als ASCII-Text sowie als digitales Wortmodell gespeichert
sind. Bei Eingabe des Namens als Text wird zunächst geprüft, ob dieser
Name in der Datenbank vorhanden ist und gegebenenfalls ihm die dort
hinterlegte Phonemkette zugewiesen. Andernfalls wird die
buchstabengemäße Umwandlung in eine Phonemkette vorgenommen,
eventuell unter Zuhilfenahme des Ausnahme-Lexikons.
Innerhalb der erfindungsgemäßen Vorrichtung wird der eingegebene
Name, das diesem entsprechende durch die Vorrichtung bestimmte
Wortmodell sowie die zum Namen eingegebene Rufnummer derart abgelegt,
daß stets eine Zuordnung dieser Daten zueinander getroffen werden kann,
z. B. indem ein Datensatz mit einer Kodeziffer versehen wird. In diesem Fall
kann die Hinterlegung des Namensmusters bzw. Wortmodells auch
getrennt von Name und Rufnummer erfolgen, z. B. innerhalb des
Spracherkenners.
Erfindungsgemäß wird die automatische Sprachnamenwahl unter
Verwendung der bereits eingerichteten Vorrichtung nach folgendem
Verfahren durchgeführt:
- a) Eingabe eines Sprachsignals an einem Mikrofon;
- b) Übermittlung des Sprachsignals in digitaler Form an den Sprach erkenner;
- c) Vergleich des Sprachsignals mit vorbestimmten digitalen Wortmodellen;
- d) Auswahl des Wortmodells, welches die größte Übereinstimmung zum eingegebenen Sprachsignal aufweist;
- e) automatischer Verbindungsaufbau mit der Rufnummer, welche dem unter d) ausgewählten Wortmodell zugeordnet ist:
Das vom Benutzer der Vorrichtung eingegebene Sprachsignal ist derjenige
Name eines Telefonnetzteilnehmers, dessen in der Einlernphase
eingegebene Rufnummer durch die Vorrichtung automatisch angewählt
werden soll. Das Sprachsignal wird digitalisiert und dem Spracherkenner
übermittelt der einen Vergleich mit vorbestimmten digitalen Wortmodellen,
die in der Einlernphase mittels des Graphem-Phonem-Umsetzers erstellt
wurden, durchführt. Dasjenige Wortmodell, das die größte Überein
stimmung mit dem eingegebenen Sprachsignal aufweist, ist das
Erkennungsergebnis des Spracherkenners. Weisen sämtliche hinterlegten
Namensmuster zu große Abweichungen vom eingegebenen Sprachsignal
auf und ist somit eine Identifizierung des Namens nicht möglich, so gibt die
Vorrichtung eine Fehlermeldung aus und fordert vorzugsweise zur
erneuten akustischen Eingabe des Namens auf.
Dadurch daß die Erstellung der Phonemkette bzw. des Wortmodells auf
standardisierten Läuten basiert, wird eine vom individuellen
Sprachverhalten unabhängige Referenz geschaffen, wobei das im
Anwendungsfall von einem Benutzer gesprochene Wort durch Vergleich
mit den vorhandenen Referenzobjekten, den vorbestimmten Wortmodellen,
ermittelt wird. Somit gelingt im Gegensatz zur sprecherabhängigen
Spracherkennung, bei der die durch individuelles Training geschaffenen
Wortmodelle lediglich eine subjektive Referenz darstellen, eine weitgehend
sprecherunabhängige Zuordnung des gesprochenen Worts zu dem
vorbestimmten Wortmodell und zur damit assoziierten Rufnummer. Die
Erkennungssicherheit ist für alle Nutzer der erfindungsgemäßen
Vorrichtung etwa gleich.
Wurde ein Name erkannt, indem eine weitgehende Übereinstimmung
zwischen dem eingegebenen Sprachsignal und dem hinterlegten Wort
modell festgestellt wurde, wird vorzugsweise der dem Wortmodell
entsprechende Name als Text auf einem Display dargestellt oder das
Wortmodell als synthetische Sprache über einen Lautsprecher wieder
gegeben. Nach Bestätigung des Erkennungsergebnisses durch den Nutzer
wird die automatische Wahl mit der Wortmodell und Namen zugeordneten
Rufnummer durchgeführt.
Die Erfindung wird nachfolgend an einem Ausführungsbeispiel erläutert.
Dabei zeigt Fig. 1 ein Blockdiagramm einer erfindungsgemäßen
Vorrichtung zur sprecherunabhängigen Sprachnamenwahl. Der Daten
transfer und dessen Richtung zwischen den einzelnen dargestellten
Komponenten ist durch Pfeile angedeutet.
Die erfindungsgemäße Vorrichtung weist die bekannten Komponenten einer
Telekommunikations-Endeinrichtung auf, das sind der Telefonnetzzugang
1, die Sprech- und Wähleinrichtung 2 und ein Mikrofon 3 sowie einen
Lautsprecher 4 zur Spracheingabe bzw. Sprachwiedergabe über einen
Telefonhörer oder innerhalb einer Freisprecheinrichtung. Das Telefon weist
weiterhin eine Tastatur 5 zur Eingabe von Wählbefehlen sowie ein Display
zur Anzeige von Informationen auf.
Erfindungsgemäß weist das Telefon mit sprecherunabhängiger
Sprachnamenwahl einen Speicher 6 für Rufnummern und Namen im
ASCII-Format, einen Graphem-Phonem-Umsetzer 8 sowie einen
phonembasierten HMM (Hidden Markov Model) -Spracherkenner auf.
Die Erfindung wird in zwei Phasen angewendet. In der ersten Phase, der
Einlernphase, erfolgt die Eingabe der Rufnummer und des assoziierten
Namens über die alphanumerische Tastatur 5 in den Speicher 6 des
Endgerätes. Nach jeder Eingabe eines neu hinzugekommenen Namens wird
aus dem im Speicher 6 abgelegen Namen durch den Graphem-Phonem-
Umsetzer 8 ein neues Wortmodell für den HMM-Spracherkenner 7
berechnet. Zur Unterstützung der Umsetzung von Eigennamen in eine
Phonemkette wird ein Ausnahme-Lexikon zur Graphem-Phonem-
Umsetzung zuhilfe genommen. Bei der hier dargestellten Vorrichtung wird
hierfür eine Onomastika-Datenbank 9 verwendet, die die meisten
vorkommenden Eigennamen einer Sprache beinhaltet. Mit der Berechnung
der Wortmodelle zu allen eingegebenen Namen durch den Graphem-
Phonem-Umsetzer 8 und gegebenenfalls deren Bestätigung durch den
Benutzer nach Wiedergabe als synthetische Sprache mittels einer Text-to-
Speech-Einheit 10 über die Sprech- und Wähleinrichtung 2 sowie den
Lautsprecher 4 ist die erfindungsgemäße Einlernphase abgeschlossen. Das
damit angelegte Rufnummernverzeichnis kann jedoch jederzeit durch
erneute Eingabe von Name und Rufnummer erweitert werden.
In der zweiten Phase wird die erfindungsgemäße Sprachnamenwahl
benutzt, um eine Verbindung zu einem gewünschten Teilnehmer
aufzubauen. Zu diesem Zweck spricht der Nutzer den Namen des
gewünschten Teilnehmers entweder über das Mikrofon 3 des Handsets oder
der Freisprecheinrichtung in die Endeinrichtung. Das Sprachsignal wird
über die Sprech- und Wähleinrichtung 2 an den HMM-Spracherkenner 7
weitergeleitet. Der Spracherkenner 7 erkennt durch Vergleich mit den
vorbestimmten Wortmodellen den wahrscheinlichesten Namen des
Wortmodells und liefert das Erkennungsergebnis an den Speicher für
Rufnummern und Namen 6. Über die Zuordnung des Namens zur
Rufnummer kann nunmehr über die Sprech- und Wähleinrichtung 2 der
Verbindungsaufbau über den Netzzugang 1 vorgenommen werden. Es ist
vorgesehen, daß der erkannte Name zur Bestätigung in seiner ASCII-
Darstellung auf dem Display dargestellt oder als synthetisches Sprachsignal
akustisch über den Lautsprecher des Handsets oder der
Freisprecheinrichtung 4 wiedergegeben wird. Dazu wird der erkannte
Name in seiner ASCII-Darstellung einem Text-to-Speech-Synthetisator 10
zur Erzeugung eines synthetischen Sprachsignals zugeführt oder die
synthetische Sprache durch akustische Wiedergabe des erkannten
Wortmodells erzeugt.
Da der Graphem-Phonem-Umsetzer 8 und der Text-to-Speech-Synthetisator
10 gleichermaßen auf eine Datenbasis zur Graphem-Phonem-Umsetzung
zugreifen, kann diese Ressource gemeinsam genutzt werden.
1
Telefonnetzzugang
2
Sprech- und Wähleinrichtung
3
Mikrofon
4
Lautsprecher
5
alphanumerische Tastatur
6
Speicher für Rufnummern und Namen
7
phonembasierter Spracherkenner
8
Graphem-Phonem-Umsetzer
9
Onomastika-Datenbank
10
Text-to-Speech-Synthetisator
Claims (15)
1. Vorrichtung zur sprecherunabhängigen Sprachnamenwahl für
Telekommunikations-Endeinrichtungen, mit folgenden Merkmalen:
- a) einen Speicher (6) für Rufnummern und Namen, in welchem Namen sowie jeweils die damit assoziierte Rufnummer als ASCII-Text hinterlegt sind;
- b) einen Graphem-Phonem-Umsetzer (8), welcher aus einem ASCII-Text (Graphemkette) ein digitales Wortmodell (Phonemkette) zu erstellen imstande ist;
- c) einen phonembasierten Spracherkenner (7), welcher ein gesprochenes, digitalisiertes Sprachsignal mit vorbestimmten digitalen Wortmodellen, deren ASCII-Entsprechung bekannt ist, vergleicht, dasjenige Wortmodell bestimmt, welches die größte Übereinstimmung mit dem Sprachsignal aufweist;
- d) der Speicher (6) ist durch alphanumerische Eingabe von benutzerdefinierten Namen und assoziierten Rufnummern belegbar, wobei der Graphem-Phonem-Umsetzer (8) aus dem eingegebenen Namen ein entsprechendes digitales Wortmodell erstellt, welches zusammen mit dem ASCII-Text oder einem diesem zugeordneten Kode derart gespeichert wird, daß der Spracherkenner (7) darauf zugreifen kann;
- e) zur automatischen Sprachnamenwahl wird ein akustisch eingegebener Name als digitales Sprachsignal dem Spracherkenner (7) übermittelt, von diesem mit vorbestimmten Wortmodellen verglichen, der dem Wortmodell, das mit dem Sprachsignal die größte Übereinstimmung aufweist, entsprechende ASCII-Text oder den diesem zugeordneten Kode ermittelt, welcher zum Abruf der assoziierten Rufnummer aus dem Speicher (6) dient, wobei durch die Sprech- und Wähleinrichtung (2) der Endeinrichtung automatisch eine Telekommunikationsverbindung mit dieser Rufnummer aufgebaut wird.
2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet,
daß der Spracherkenner (7) ein HMM (Hidden Markov Model) -Sprach
erkenner ist.
3. Vorrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß die Graphem-Phonem-Umsetzung durch ein Ausnahme-Lexikon
unterstützt wird, in welchem phonetischen Eigenarten von Eigennamen
entsprechende Sequenzen hinterlegt sind, welche durch den Graphem-
Phonem-Umsetzer (8) in die Phonemkette eingefügt werden.
4. Vorrichtung nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet,
daß die Graphem-Phonem-Umsetzung durch eine Onomastika-Datenbank
unterstützt wird, in welcher Eigennamen als ASCII-Text sowie als digitales
Wortmodell gespeichert sind.
5. Vorrichtung nach einem der vorangegangenen Ansprüche, dadurch
gekennzeichnet,
daß der vom Spracherkenner (7) aufgrund einer Spracheingabe identifizierte
Name in ASCII-Darstellung auf einem Display dargestellt wird, bevor der
automatische Verbindungsaufbau eingeleitet wird.
6. Vorrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet,
daß das digitale Wortmodell, bei dem der Spracherkenner (7) die größte
Übereinstimmung mit einem als Sprachsignal eingegebenen Namen
feststellt, mittels eines Sprachsynthetisators (10) akustisch wiedergegeben
wird, bevor der automatische Verbindungsaufbau eingeleitet wird.
7. Vorrichtung nach Anspruch 5 oder 6, dadurch gekennzeichnet,
daß erst nach Bestätigung des Erkennungsergebnisses der automatische
Verbindungsaufbau mit der dem erkannten Namen entsprechenden
Rufnummer eingeleitet wird.
8. Verfahren zur Einrichtung eines individuellen Rufnummernverzeich
nisses zur Sprachnamenwahl unter Verwendung einer Vorrichtung nach
einem der vorangegangenen Ansprüche, dadurch gekennzeichnet,
daß folgende Schritte nacheinander durchgeführt werden:
- a) alphanumerische Eingabe eines oder mehrerer Namen und assoziierter Rufnummern;
- b) Speicherung der eingegebenen Daten im ASCII-Format;
- c) Berechnung eines digitalen Wortmodells des bzw. der Namen auf der Basis des entsprechenden ASCII-Textes durch Graphem-Phonem- Umsetzung;
- d) Speicherung des Wortmodells derart, daß die Zuordnung zum zugrundeliegenden ASCII-Text möglich ist.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet,
daß das einem Namen zugeordnete Wortmodell (Phonemkette) aus einer
Datenbank, in welcher die einzelnen Buchstaben oder Buchstaben
kombinationen entsprechenden Lautumsetzungen hinterlegt sind, ermittelt
und zusammengesetzt wird.
10. Verfahren nach Anspruch 8 oder 9, dadurch gekennzeichnet,
daß das einem Namen zugeordnete Wortmodell (Phonemkette) aus einer
Datenbank, in welcher Eigennamen entsprechenden Phoneme bzw.-
Phonemketten hinterlegt sind, ermittelt wird.
11. Verfahren nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet,
daß das berechnete Wortmodell mit dem entsprechenden Namen und der
assoziierten Rufnummer im Speicher (6) abgelegt wird.
12. Verfahren nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet,
daß das berechnete Wortmodell mit dem zugrundeliegenden ASCII-Text
oder mit einem diesem zugeordneten Kode in einer weiteren Datenbank,
vorzugsweise im Spracherkenner (7), abgelegt wird.
13. Verfahren zur automatischen Sprachnamenwahl unter Verwendung
einer Vorrichtung nach einem der Ansprüche 1 bis 7, dadurch
gekennzeichnet,
daß folgende Schritte nacheinander durchgeführt werden:
- a) Eingabe eines Sprachsignals an einem Mikrofon;
- b) Übermittlung des Sprachsignals in digitaler Form an den Sprach erkenner;
- c) Vergleich des Sprachsignals mit vorbestimmten digitalen Wortmodellen;
- d) Auswahl des Wortmodells, welches die größte Übereinstimmung zum eingegebenen Sprachsignal aufweist;
- e) automatischer Verbindungsaufbau mit der Rufnummer, welche dem unter d) ausgewählten Wortmodell zugeordnet ist:
14. Verfahren nach Anspruch 13, dadurch gekennzeichnet,
daß die vorbestimmten digitalen Wortmodelle benutzerdefiniert sind und die
Phoneme bzw. Phonemketten derjenigen Namen sind, die im individuellen
Rufnummernverzeichnis hinterlegt sind.
15. Verfahren nach Anspruch 13 oder 14, dadurch gekennzeichnet,
daß die ASCII-Entsprechung des im Verfahrensschritt d) ausgewählten
Wortmodells auf einem Display dargestellt wird oder das Wortmodell als
synthetische Sprache mittels eines Lautsprechers (4) wiedergegeben wird
und Verfahrensschritt e) erst nach Bestätigung des Erkennungsergebnisses
automatisch ausgeführt wird.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19751123A DE19751123C1 (de) | 1997-11-19 | 1997-11-19 | Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen |
EP98954351A EP1031138B1 (de) | 1997-11-19 | 1998-10-06 | Vorrichtung und verfahren zur sprecherunabhängigen sprachnamenwahl für telekommunikations-endeinrichtungen |
ES98954351T ES2180211T3 (es) | 1997-11-19 | 1998-10-06 | Dispositivo y procedimiento para la seleccion de nombres por reconocimiento vocal independientemente del usuario, para terminales de telecomunicacion. |
PCT/EP1998/006343 WO1999026232A1 (de) | 1997-11-19 | 1998-10-06 | Vorrichtung und verfahren zur sprecherunabhängigen sprachnamenwahl für telekommunikations-endeinrichtungen |
AT98954351T ATE221243T1 (de) | 1997-11-19 | 1998-10-06 | Vorrichtung und verfahren zur sprecherunabhängigen sprachnamenwahl für telekommunikations-endeinrichtungen |
DE59804927T DE59804927D1 (de) | 1997-11-19 | 1998-10-06 | Vorrichtung und verfahren zur sprecherunabhängigen sprachnamenwahl für telekommunikations-endeinrichtungen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19751123A DE19751123C1 (de) | 1997-11-19 | 1997-11-19 | Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19751123C1 true DE19751123C1 (de) | 1999-06-17 |
Family
ID=7849114
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19751123A Revoked DE19751123C1 (de) | 1997-11-19 | 1997-11-19 | Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen |
DE59804927T Expired - Fee Related DE59804927D1 (de) | 1997-11-19 | 1998-10-06 | Vorrichtung und verfahren zur sprecherunabhängigen sprachnamenwahl für telekommunikations-endeinrichtungen |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59804927T Expired - Fee Related DE59804927D1 (de) | 1997-11-19 | 1998-10-06 | Vorrichtung und verfahren zur sprecherunabhängigen sprachnamenwahl für telekommunikations-endeinrichtungen |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1031138B1 (de) |
AT (1) | ATE221243T1 (de) |
DE (2) | DE19751123C1 (de) |
ES (1) | ES2180211T3 (de) |
WO (1) | WO1999026232A1 (de) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19942178C1 (de) * | 1999-09-03 | 2001-01-25 | Siemens Ag | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung |
EP1215661A1 (de) * | 2000-12-14 | 2002-06-19 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Sprachgesteuertes tragbares Endgerät |
EP1220200A1 (de) * | 2000-12-18 | 2002-07-03 | Siemens Aktiengesellschaft | Verfahren und Anordnung zur sprecherunabhängigen Spracherkennung für ein Telekommunikations- bzw. Datenendgerät |
EP1251492A1 (de) * | 2001-04-17 | 2002-10-23 | Nokia Corporation | Vorrichtung zur sprecherunabhängigen Spracherkennung , basierend auf einem Client-Server-System |
EP1302928A1 (de) * | 2001-10-16 | 2003-04-16 | Siemens Aktiengesellschaft | Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner |
EP1324314A1 (de) * | 2001-12-12 | 2003-07-02 | Siemens Aktiengesellschaft | Spracherkennungssystem und Verfahren zum Betrieb eines solchen |
WO2004068466A1 (en) * | 2003-01-24 | 2004-08-12 | Voice Signal Technologies, Inc. | Prosodic mimic synthesis method and apparatus |
WO2004084184A1 (de) * | 2003-03-17 | 2004-09-30 | Siemens Aktiengesellschaft | Sprachrückmeldung bei der sprecherunabhängigen namenswahl |
EP1684264A1 (de) | 2005-01-19 | 2006-07-26 | Obstfelder, Sigrid | Handy und Verfahren zur Spracheingabe von text in ein solches |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6314165B1 (en) * | 1998-04-30 | 2001-11-06 | Matsushita Electric Industrial Co., Ltd. | Automated hotel attendant using speech recognition |
US20080103771A1 (en) * | 2004-11-08 | 2008-05-01 | France Telecom | Method for the Distributed Construction of a Voice Recognition Model, and Device, Server and Computer Programs Used to Implement Same |
WO2013167934A1 (en) | 2012-05-07 | 2013-11-14 | Mls Multimedia S.A. | Methods and system implementing intelligent vocal name-selection from directory lists composed in non-latin alphabet languages |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3129353A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen |
DE3129320A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherunabhaengigen erkennung von einzeln gesprochenen worten in fernmeldesystemen |
DE3819538C2 (de) * | 1987-06-08 | 1992-11-12 | Ricoh Co., Ltd., Tokio/Tokyo, Jp | |
DE4110300C2 (de) * | 1991-03-28 | 1995-04-06 | Telefonbau & Normalzeit Gmbh | Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung |
DE19610848A1 (de) * | 1996-03-19 | 1997-09-25 | Siemens Ag | Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3338484A1 (de) * | 1983-10-22 | 1985-05-02 | Standard Elektrik Lorenz Ag, 7000 Stuttgart | Teilnehmersprechstelleneinrichtung |
JP2759267B2 (ja) * | 1986-01-03 | 1998-05-28 | モトロ−ラ・インコ−ポレ−テッド | 音声認識テンプレートから音声を合成する方法および装置 |
CN1130688C (zh) * | 1995-05-03 | 2003-12-10 | 皇家菲利浦电子有限公司 | 基于新字建模的语音识别方法和装置 |
-
1997
- 1997-11-19 DE DE19751123A patent/DE19751123C1/de not_active Revoked
-
1998
- 1998-10-06 ES ES98954351T patent/ES2180211T3/es not_active Expired - Lifetime
- 1998-10-06 WO PCT/EP1998/006343 patent/WO1999026232A1/de active IP Right Grant
- 1998-10-06 EP EP98954351A patent/EP1031138B1/de not_active Expired - Lifetime
- 1998-10-06 AT AT98954351T patent/ATE221243T1/de not_active IP Right Cessation
- 1998-10-06 DE DE59804927T patent/DE59804927D1/de not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3129353A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherunabhaengigen erkennung von gesprochenen worten in fernmeldesystemen |
DE3129320A1 (de) * | 1981-07-24 | 1983-02-10 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zur sprecherunabhaengigen erkennung von einzeln gesprochenen worten in fernmeldesystemen |
DE3819538C2 (de) * | 1987-06-08 | 1992-11-12 | Ricoh Co., Ltd., Tokio/Tokyo, Jp | |
DE4110300C2 (de) * | 1991-03-28 | 1995-04-06 | Telefonbau & Normalzeit Gmbh | Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung |
DE19610848A1 (de) * | 1996-03-19 | 1997-09-25 | Siemens Ag | Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme |
Non-Patent Citations (1)
Title |
---|
Dr.-Ing. Klaus Zünkler: Sprachverstehende Systeme-Kommunikationstechnik für morgen?, In: Siemens- Zeitschrift 3-4/92, S. 31-35 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19942178C1 (de) * | 1999-09-03 | 2001-01-25 | Siemens Ag | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung |
US7406417B1 (en) | 1999-09-03 | 2008-07-29 | Siemens Aktiengesellschaft | Method for conditioning a database for automatic speech processing |
EP1215661A1 (de) * | 2000-12-14 | 2002-06-19 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Sprachgesteuertes tragbares Endgerät |
WO2002049005A2 (en) * | 2000-12-14 | 2002-06-20 | Telefonaktiebolaget Lm Ericsson (Publ) | Mobile terminal controllable by spoken utterances |
WO2002049005A3 (en) * | 2000-12-14 | 2002-08-15 | Ericsson Telefon Ab L M | Mobile terminal controllable by spoken utterances |
EP1220200A1 (de) * | 2000-12-18 | 2002-07-03 | Siemens Aktiengesellschaft | Verfahren und Anordnung zur sprecherunabhängigen Spracherkennung für ein Telekommunikations- bzw. Datenendgerät |
US7392184B2 (en) | 2001-04-17 | 2008-06-24 | Nokia Corporation | Arrangement of speaker-independent speech recognition |
EP1251492A1 (de) * | 2001-04-17 | 2002-10-23 | Nokia Corporation | Vorrichtung zur sprecherunabhängigen Spracherkennung , basierend auf einem Client-Server-System |
EP1302928A1 (de) * | 2001-10-16 | 2003-04-16 | Siemens Aktiengesellschaft | Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner |
US7243070B2 (en) | 2001-12-12 | 2007-07-10 | Siemens Aktiengesellschaft | Speech recognition system and method for operating same |
EP1324314A1 (de) * | 2001-12-12 | 2003-07-02 | Siemens Aktiengesellschaft | Spracherkennungssystem und Verfahren zum Betrieb eines solchen |
WO2004068466A1 (en) * | 2003-01-24 | 2004-08-12 | Voice Signal Technologies, Inc. | Prosodic mimic synthesis method and apparatus |
US8768701B2 (en) | 2003-01-24 | 2014-07-01 | Nuance Communications, Inc. | Prosodic mimic method and apparatus |
WO2004084184A1 (de) * | 2003-03-17 | 2004-09-30 | Siemens Aktiengesellschaft | Sprachrückmeldung bei der sprecherunabhängigen namenswahl |
EP1684264A1 (de) | 2005-01-19 | 2006-07-26 | Obstfelder, Sigrid | Handy und Verfahren zur Spracheingabe von text in ein solches |
Also Published As
Publication number | Publication date |
---|---|
ES2180211T3 (es) | 2003-02-01 |
DE59804927D1 (de) | 2002-08-29 |
EP1031138B1 (de) | 2002-07-24 |
WO1999026232A1 (de) | 1999-05-27 |
ATE221243T1 (de) | 2002-08-15 |
EP1031138A1 (de) | 2000-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60111775T2 (de) | Sprachgesteuertes tragbares endgerät | |
DE69635015T2 (de) | Automatische vokabularerzeugung für auf einem telekommunikationsnetzwerk basierte sprachgesteuerte wahl | |
DE69633883T2 (de) | Verfahren zur automatischen Spracherkennung von willkürlichen gesprochenen Worten | |
DE69629873T2 (de) | Verfahren und Vorrichtung zum Steuern eines Telephons mittels Sprachbefehle | |
DE69922872T2 (de) | Automatischer Hotelportier mit Spracherkennung | |
DE69922104T2 (de) | Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz | |
DE69839068T2 (de) | System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung | |
DE10220524B4 (de) | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache | |
DE19751123C1 (de) | Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen | |
CN110751943A (zh) | 一种语音情绪识别方法、装置以及相关设备 | |
DE112004000187T5 (de) | Verfahren und Vorrichtung der prosodischen Simulations-Synthese | |
DE60008893T2 (de) | Sprachgesteuertes tragbares Endgerät | |
DE60018349T2 (de) | Erzeugung von einem Namenwörterbuch aus aufgezeichneten telephonischen Grüssen für die Spracherkennung | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
EP1590797B1 (de) | Kommunikationssystem, kommunikationsendeinrichtung und vorrichtung zum erkennen fehlerbehafteter text-nachrichten | |
DE602004004746T2 (de) | Ortsabhängige Sprachwahlvorrichtung und Sprachwahlverfahren | |
DE10000973A1 (de) | Verfahren zur sprachgesteuerten Identifizierung des Nutzers eines Telekommunikationsanschlusses im Telekommunikationsnetz beim Dialog mit einem sprachgesteuerten Dialogsystem | |
DE10011178A1 (de) | Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis | |
DE69910412T2 (de) | Sprachgesteuerte navigation für einen elektronischen post leser | |
DE10220519B4 (de) | Verfahren und System zur Verarbeitung von Sprachinformation | |
EP1604353B1 (de) | Sprachrückmeldung bei der sprecherunabhängigen namenswahl | |
DE60026955T2 (de) | Akustische Identifizierung des Anrufers und des Angerufenes für mobiles Kommunikationsgerät | |
EP1302928A1 (de) | Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner | |
DE19718007A1 (de) | Verfahren und Anordnung zur besseren Auslastung der Leistungsfähigkeit des Spracherkenners eines sprachgesteuerten Kommunikationsendgerätes | |
EP0881811B1 (de) | Verfahren und Anordnung für ein sprachgesteuertes Kommunikationsendgerät mit gegen unbeabsichtigte Verfälschungen gesicherter akustischer Bedienerführung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8363 | Opposition against the patent | ||
8331 | Complete revocation |