DE10003529A1 - Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung - Google Patents
Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels SpracherkennungInfo
- Publication number
- DE10003529A1 DE10003529A1 DE10003529A DE10003529A DE10003529A1 DE 10003529 A1 DE10003529 A1 DE 10003529A1 DE 10003529 A DE10003529 A DE 10003529A DE 10003529 A DE10003529 A DE 10003529A DE 10003529 A1 DE10003529 A1 DE 10003529A1
- Authority
- DE
- Germany
- Prior art keywords
- mobile phone
- recognizer
- computer node
- digital
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/53—Centralised arrangements for recording incoming messages, i.e. mailbox systems
- H04M3/5322—Centralised arrangements for recording incoming messages, i.e. mailbox systems for recording text messages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/53—Centralised arrangements for recording incoming messages, i.e. mailbox systems
- H04M3/533—Voice mail systems
- H04M3/53316—Messaging centre selected by message originator
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2207/00—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
- H04M2207/18—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place wireless networks
Abstract
Die Erfindung zeichnet sich dadurch aus, daß ein Mobiltelefon als Endgerät zur Spracheingabe vorgesehen ist, das Mobiltelefon für eine Vorverarbeitung der Spracheingabe in Form einer Sprachanalyse mit der Ausgabe digitaler Merkmalsvektoren ausgebildet ist, Einrichtungen zur Übersendung des vorverarbeiteten Signals über das Mobiltelefon an einen Rechnerknoten vorgesehen sind, der Rechnerknoten einen Spracherkenner zur Verarbeitung des vorverarbeiteten Signals aufweist und in dem Rechnerknoten eine Einrichtung zur Rücksendung einer Ausgabe des HMM-Erkenners als digitaler Text an das Mobiltelefon vorhanden ist.
Description
Die vorliegende Erfindung betrifft ein Verfahren zum Erstel
len einer Textdatei mittels Spracherkennung gemäß dem Oberbe
griff des Patentanspruchs 1 und eine Vorrichtung zum Erstel
len einer Textdatei mittels Spracherkennung gemäß dem Oberbe
griff des Patentanspruchs 10.
Bisher bekannte Verfahren und Vorrichtungen der genannten Art
arbeiten komplexe Programme auf sehr leistungsfähigen Rechen
anlagen ab. Auch bei der stetig wachsenden Leistungsfähigkeit
und höheren Integration ist es bislang nicht möglich, an be
liebiger Stelle mit einem Computer so wie mit einem Menschen
zu sprechen. Derartige Vorrichtungen sind noch immer zu groß
und/oder zu teuer, um allgegenwärtig verfügbar zu sein.
Unter der Bezeichnung 'AURORA' ist ein Forschungs- und Ent
wicklungs-Projekt bekannt geworden, für das eine Verbesserung
des Preis/Leistungsverhältnisses von Verfahren und Vorrich
tungen der genannten Art durch den Einsatz von Client/Server-
Strukturen bei verteilter Spracherkennung zum Ziel gesetzt
worden ist. In einem Client wird beispielsweise nur ein
Front-end der Vorrichtung als Eingabemodul mit einer wenig
Energie verbrauchenden Einheit zur digitalen Signalverarbei
tung ('digital signal processing unit' bzw. DSP) unterge
bracht. Das analog eingehende Sprachsignal wird vorverarbei
tet. Nachfolgend wird es als fehlerkorrigierbares Digitalsi
gnal mit im Vergleich zu einem unbearbeiteten Sprachsignal
relativ niedriger Bit Rate an den Server übertragen. Die ei
gentliche Spracherkennung wird dann im Server vorgenommen.
Demnach ist es die Aufgabe der vorliegenden Erfindung, Ver
fahren und Vorrichtungen der genannten Art unter Einsatz von
üblicher mobiler Endgeräten weiterzuentwickeln, wobei die begrenzten
technischen Möglichkeiten bekannter mobiler Endgerä
te und deren Preis für den Endverbraucher berücksichtigt wer
den müssen.
Diese Aufgabe wird durch ein Verfahren mit den Merkmale des
Patentanspruchs 1 bzw. durch eine Vorrichtung gemäß Patentan
spruch 10 gelöst.
Demnach umfaßt ein erfindungsgemäßes Verfahren eine Vorverar
beitung eines Sprachsignals in einem Mobiltelefon als mobiles
Endgerät, eine vollständige Spracherkennung außerhalb des Mo
biltelefons in einem leistungsstarken Rechner sowie eine
Rücksendung des erkannten Textes an das Mobiltelefon zur Kon
trolle, gegebenenfalls zur Korrektur und schließlich zum Ver
sand.
Als mobile Endgeräte sind Mobiltelefone heute sehr weit ver
breitet. Mit dem Mobiltelefon kann man heutzutage nicht nur
gesprochene Sprache empfangen und versenden, sondern auch
textuelle Nachrichten in Form von Kurznachrichten bzw. SMS-
Nachrichten oder von EMails. Diese haben für den Empfänger
die bekannten Vorteile von EMails auf vernetzten PCs. Zusätz
lich empfängt der Benutzer sie direkt auf dem Mobiltelefon,
ohne dafür kostenpflichtig seine Mailbox abfragen zu müssen.
Die Erstellung solcher Nachrichten mit dem Mobiltelefon als
Eingabegerät ist jedoch sehr mühsam. Der Text einer SMS-
Nachricht oder einer EMail wird dabei gewöhnlich mit der Zif
ferntastatur des Mobiltelefons eingegeben. Da die 26 Buchsta
ben und die diversen Satz- und Sonderzeichen auf die 10 + 2
Zifferntasten abgebildet werden müssen, ist das Problem der
Eingabe bisher dadurch gelöst worden, das man eine jede Zif
ferntaste mit zwischen 3 und 17 Buchstaben und Zeichen be
legt, siehe zum Beispiel das Mobiltelefon Siemens S10. Will
man nun z. B. das 13. Zeichen einer Taste in seinen Text auf
nehmen, muß diese Taste in schneller Folge 13mal hintereinan
der gedrückt werden. Die Erstellung einer Nachricht auf diese
Weise erweist sich in der Praxis als sehr mühsam, fehleran
fällig und vor allem auch extrem zeitintensiv.
Da man ein Telefon bzw. Mobiltelefon vornehmlich zur Über
mittlung gesprochener Sprache verwendet, wird diese natürli
che und für den Benutzer intuitivste und bequemste Art der
Bedienung erfindungsgemäß auch für die Erstellung der textu
ellen Nachrichten verwendet. Der Ersteller der SMS-Nachricht
oder EMail tippt diese also nicht, sondern er diktiert diese,
ähnlich wie in ein herkömmliches Handdiktiergerät. Ein Spra
cherkennungssystem wandelt dieses Diktat dann in den SMS-
oder EMail-Text um. Mit der verfügbaren Technologie kann die
ses Diktat in natürlicher und kontinuierlicher Sprechweise
erfolgen, das heißt mit fließend gesprochener Sprache, ohne
Pausen zwischen den Wörtern und ohne der Notwendigkeit eines
vorhergehenden Sprechertrainings. Nachdem er das Diktat been
det hat, hat der Benutzer die Option, sich den soeben dik
tierten Text auf dem Display des Mobiltelefons noch einmal
anzeigen zu lassen und gegebenenfalls Korrekturen vorzuneh
men, wobei hier auf die Tastaturbedienung, wie sie auch zur
üblichen SMS-Erstellung verwendet wird, zurückgegriffen wer
den kann. Erfindungsgemäß erfolgt damit die Erstellung von
textuellen Nachrichten im wesentlichen mittels kontinuierli
cher Sprache mit dem Mobiltelefon als Endgerät. Das Mobilte
lefon wird also wie ein klassisches Handdiktiergerät, und da
mit sehr intuitiv bedient, während das Ergebnis beispielswei
se eine SMS-Nachricht oder auch eine EMail oder eine sonstige
Textdatei ist. Dies stellt für den Benutzer eine erhebliche
Vereinfachung der Eingabe von SMS-Nachrichten und EMail mit
dem Mobiltelefon gegenüber der herkömmlichen Methode dar und
erhöht damit die Benutzerakzeptanz.
Da ein erfindungsgemäßes Spracherkennungssystem viel Rechen
leistung und Speicherplatz und damit bei heute verfügbarer
Technologie viel Platz und Strom benötigt, wird der Spracher
kenner nicht in das Endgerät selbst eingebaut werden. Der
Spracherkenner läßt sich jedoch in einem Knotenrechner bzw.
in einem Switch des Netzbetreibers oder bei einem eigenen
Service-Provider installieren. Somit wird im Rahmen der vor
liegenden Erfindung eine Client/Server-Struktur mit vielen
Anwendern realisiert, die in ihrer Größe weitgehend frei ska
lierbar ist. Die großen Investitionen werden auf die Seite
des Service-Providers bzw. Netzbetreibers verlagert. Dort
können sie mit dem bisher schon üblichen Apparateaufwand kom
biniert werden, so daß der Spracherkenner nur eine weitere
Ausbaustufe eines bereits existierenden Systems darstellt.
Hingegen werden die mobilen Endgeräte bzw. die Mobiltelefone
durch eine erfindungsgemäße Ausrüstung vorteilhafterweise nur
unwesentlich verteuert. Bei der heute üblichen Nutzung digi
taler Übertragungskanäle sind in modernen Mobiltelefonen
schon serienmäßig sehr leistungsfähige Prozessoren zur digi
talen Sprachsignalverarbeitung DSP integriert. Hier ist also
nur eine Anpassung an eine erfindungsgemäße Vorverarbeitung
des Sprachsignals durchzuführen. Es wird also der Bedienungs
komfort eines erfindungsgemäßen Mobiltelefons bei geringen
Mehrkosten erheblich gesteigert. Ein erfindungsgemäßes Ver
fahren kann dabei auch als Option an einem Mobiltelefon in
stalliert sein, das erst durch Abonnieren eines entsprechen
den zusätzlichen Dienstes bei einem Provider bzw. Netzbetrei
ber aktiviert wird.
Schon diese Beispiele zeigen die hohe preisliche Flexibilität
bei der Umsetzung eines erfindungsgemäßen Verfahrens und ei
ner dementsprechenden Vorrichtung auf, die wesentliche Vor
aussetzungen für eine gute Akzeptanz bei deren Einführung in
einem Markt sind, der unter starken Preisdruck steht. Durch
eine Ausgliederung eines erfindungsgemäßen Verfahrens in ei
nen zusätzlichen Dienst bieten sich auch Möglichkeiten für
neue Anbieter, die sich in dem Bereich der Erkenner speziali
sieren.
Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens
bzw. der erfindungsgemäßen Vorrichtung zum Erstellen einer
Textdatei mittels Spracherkennung sind Gegenstand von Un
teransprüchen.
Die vorliegende Erfindung wird im folgenden unter Bezugnahme
auf die zugehörigen Zeichnungen anhand eines Ausführungsbei
spiels näher erläutert.
In den Zeichnungen zeigt:
Fig. 1 eine schematische Ansicht einer Vorrichtung zum Er
stellen einer Textdatei mittels Spracherkennung gemäß
einer bevorzugten Ausführungsform nach der vorliegen
den Erfindung und
Fig. 2 einen über der Zeitachse aufgetragenen Plan des Si
gnalflusses innerhalb einer erfindungsgemäßen Vorrich
tung.
In Fig. 1 ist eine schematische Ansicht einer erfindungsgemä
ßen Vorrichtung zum Erstellen einer Textdatei mittels Spra
cherkennung dargestellt, das nach dem erfindungsgemäßen Ver
fahren arbeitet. Die einzelnen Verarbeitungseinrichtungen
sind örtlich den beteiligten Geräten zugeordnet und durch
funktionale Blöcke repräsentiert. Die Signalwege zwischen den
Blöcken sind als Pfeile eingezeichnet.
In der Fig. 1 ist eine Vorrichtung 1 zum Erstellen einer Text
datei mittels Spracherkennung als Teil eines Mobilfunksystems
dargestellt, bei dem ein Teilnehmer bzw. Benutzer B mit einem
Mobiltelefon 2 exemplarisch herausgegriffen worden ist. Der
prinzipielle Aufbau des Mobilfunksystems ist allgemein be
kannt und hier nur skizziert dargestellt, da das erfindungs
gemäße Verfahren mit den nachfolgen beschriebenen Teilen der
Vorrichtung 1 in der Form von Modulen dem Mobilfunksystem
hinzugefügt werden. Es bleiben somit weite Teile des Mobil
funksystems unberührt, so daß diese im Rahmen der Darstellung
einer Ausführungsform der Erfindung nicht beschrieben werden
müssen.
Der Benutzer B wählt an dem Mobiltelefon 2 über eine Taste 3
einer Tastatur 4 als Sonderfunktion das Erstellen einer Text
datei mittels Spracherkennung aus. Daraufhin wird jede weite
re Spracheingabe des Benutzers B von der Vorrichtung 1 als zu
verarbeitende analoge Spracheingabe 5 gewertet. Dieses Signal
wird an eine Einrichtung 6 zur Vorverarbeitung weitergelei
tet, die die analoge Spracheingabe 5 in ein vorverarbeitetes
digitales Signal 8 umformt. Das vorverarbeitete digitale Si
gnal 8 stellt dabei das Ergebnis einer digitalen Merkmalsana
lyse der analogen Spracheingabe 5 dar, die in einem zeitli
chen Abstand von ca. 10 ms in der Form von Merkmalsvektoren
von der Einrichtung 6 zur Vorverarbeitung erzeugt wird.
Nach der Vorverarbeitung der Spracheingabe wird das vorverar
beitete digitale Signal 8 über Sendeeinrichtungen 10 über ei
nen digitalen Übertragungskanal 12 bspw. nach dem GMS-
Standard oder dem zukünftigen UTMS-Standard zu Empfangsein
richtungen 13 an einen Rechnerknoten 14 übertragen. Durch die
Vorverarbeitung ist aus der sehr störanfälligen analogen
Spracheingabe 5 als vorverarbeitetes Signal 8 ein digitales
Signal erzeugt worden, das wesentlich robuster gegen Störun
gen der Umgebung und/oder innerhalb der Vorrichtung 1 ist.
Dazu ist durch die Übertragung von digitalen Merkmalsvektoren
als Inhalt des vorverarbeiteten Signals 8 die zu übertragende
Datenmenge gegenüber der bei Übertragung eines gegen Fehler
geschützten reinen Digitalsignals wesentlich reduziert. Diese
Reduzierung beträgt beispielsweise 160 kBit/s auf ca. 8 bis
16 kBit/s nach der Vorverarbeitung durch eine Sprachanalyse
mit Ausgabe nur von Merkmalsvektoren. Für eine mögliche Zwi
schenspeicherung wird somit auch nur ein relativ kleiner
Speicher 15 in dem Mobiltelefon benötigt, was neben einer
weiteren Kosteneinsparung auf der Hardware-Seite auch eine
Senkung des Energiebedarfs bei einem derartigen Mobiltelefon
2 bewirkt.
Von den Empfangseinrichtungen 13 wird das vorverarbeitete Si
gnal 8 in dem Rechnerknoten 14 einem Erkenner 16 zugeführt,
der die eigentliche Spracherkennung durchführt. Als Erkenner
16 ist ein Hidden Markow Modell-Erkenner, (HMM)-Erkenner,
vorgesehen. Es kann jedoch entsprechend der zu erwartenden
Fortschritte auch ein auf neuronalen Netzen basierender Er
kenner an dieser Stelle eingesetzt werden. Vorzugsweise wer
den sprecherunabhängige continous speech Erkenner in dem
Rechnerknoten 14 eingesetzt, der in einer verteilten Cli
ent/Server-Struktur als Server dient. Der Rechnerknoten 14
ist dabei vorzugsweise zur parallelen Verarbeitung der vor
verarbeiteten Spracheingaben mehrerer Benutzer ausgelegt, wo
bei in den Abbildungen der Fig. 1 und 2 der Einfachheit
halber nur je ein Benutzer B dargestellt ist.
Der Einsatz sprecherunabhängiger continous speech Erkenner
wird in dem Rechnerknoten 14 zwar bevorzugt, es sind jedoch
auch einfachere Lösungen denkbar. Da beispielsweise jeder Mo
biltelefon-Benutzer anhand seiner PIN etc. als Teilnehmer
schon für die Abrechnung des Netzbetreibers stets eindeutig
identifiziert sein muß ist auch eine Reduzierung der vorste
henden Anforderungen an den Erkenner 16 hin auf einen benut
zerabhängigen und trainierbaren Erkenner möglich. Dieses ein
fachere System arbeitet nach einer Trainingsphase auch mit
guten Ergebnissen. Es kann über die gesamte Dauer des Einsat
zes dazu lernen.
Der zeitliche Ablauf der Signalverarbeitung ist in Fig. 2
dargestellt. Hieraus geht hervor, daß die eigentliche Spra
cherkennung im Rechnerknoten 14 durchgeführt wird. Nur eine
Vorverarbeitung mit Fehlersicherung und Datenreduzierung ist
platz- und energiesparend in dem Mobiltelefon 2 selber unter
gebracht. Störungen auf dem Übertragungskanal können die
Spracherkennung nicht negativ beeinflussen, da die Vorverar
beitung bereits vor der Übertragung in dem Mobiltelefon 2
stattfindet. So muß die Erkennungsleistung nicht vollständig
in dem Mobiltelefon 2 eingebaut sein, was die Hardware-Kosten
für das Mobiltelefon 2 gering hält.
Am Ausgang des Erkenners 16 liegt als Ergebnis ein digitaler
Text 18 vor, der über eine Sendeeinrichtung 19 am Knoten
rechner auf einem digitalen Übertragungskanal 20 zu einer
Empfangseinrichtung 21 an dem Mobiltelefon 2 zurück übersen
det wird.
Der erkannte digitale Text 18 kann als von dem Benutzer B
kontrolliertes Ausgangssignal 22 nun in Form einer SMS oder
einer EMail versendet werden. Dem Benutzer B steht in dem Mo
biltelefon 2 ein Editor 23 für eine Anzeige auf einem Display
24 zur Verfügung, siehe Fig. 1. Eine Korrektur ist durch den
Benutzer B in gewohnter Weise über die Tastatur 4 des Mobil
telefons 2 möglich. Weiter kann der digitale Text 18 in einem
RAM-Speicher 25 in dem Mobiltelefon 2 abgespeichert werden,
so daß eine Kontrolle mit anschließendem Versand zeitlich von
der Rücksendung des erkannten digitalen Texts 18 getrennt
werden kann. Diese Speicher 25 kann jedoch auch hin zum Pro
vider bzw. Netzbetreiber ausgelagert werden und in dem Rech
nerknoten 14 vorgehalten werden, wie dies beispielsweise bei
EMail-Providern üblich ist. Dann wird dem Benutzer B auf dem
Display 24 beispielsweise nur über ein Symbol die Bereitstel
lung des erkannten digitalen Texts 18 zur Abholung angezeigt.
Dieser Text 18 ist über ein Diktat durch die beschriebene
Vorrichtung 1 sehr bequem eingegeben worden. Dabei ist trotz
der Hin- und Rücksendung zwischen Mobiltelefon 2 und Knoten
rechner 16 der abzuwickelnde Datenverkehr trotzdem insgesamt
relativ gering.
Durch eine vorstehend beschriebene Vorrichtung kann eine neue
Funktion in einem attraktiven Preis/Leistungsverhältnis im
Markt etabliert werden. Bei entsprechend anhaltender Lei
stungsentwicklung im Bereich der Hardware und Software wird
diese Funktion in näherer Zukunft eventuell auch in einem Mo
biltelefon selber untergebracht werden können.
Claims (15)
1. Verfahren zum Erstellen einer Textdatei mittels Spra
cherkennung, bei dem
- - eine Spracheingabe in ein Endgerät als Front-end
- - mit digitaler Vorverarbeitung erfolgt und
- - das vorverarbeitete Signal an einen Server versendet wird,
- - in dem die Spracherkennung in einem Erkenner vorgenommen wird,
- - die Spracheingabe in ein Mobiltelefon (2) erfolgt,
- - in dem eine Vorverarbeitung der Spracheingabe (5) in Form einer Analyse des Sprachsignals mit digitaler Ausgabe ins besondere von Merkmalsvektoren vorgenommen wird,
- - das vorverarbeitete Signal (8) über das Mobiltelefon (2) an einen Rechnerknoten (14) als Server versendet wird, bei spielsweise einen Switch eines Netzbetreibers,
- - in dem Rechnerknoten (14) einer Spracherkennung mit einem Erkenner (16) unterzogen wird und
- - die Ausgabe des Erkenners (16) als digitaler Text (18) an das Mobiltelefon (2) zurückgesendet wird.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß der digitale Text (18) an dem Mobiltelefon (2) editiert
wird, beispielsweise zum Zweck einer Kontrolle, Korrektur
oder Erweiterung.
3. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß das Editieren mit einer Korrektur oder Erweiterung des
digitalen Texts (18) durch eine Eingabe an einer Tastatur (4)
an dem Mobiltelefon (2) erfolgt.
4. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß bei der Analyse der Spracheingabe (5) Merkmale in Zeitab
ständen von ungefähr 10 ms in der Form von Merkmalsvektoren
ermittelt werden.
5. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß der Erkenner (16) als HMM-Erkenner sprecherunabhängig ar
beitet.
6. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß der Erkenner (16) in einem Continous-speech Verfahren ar
beitet.
7. Verfahren nach einem der Ansprüche 1-4,
dadurch gekennzeichnet,
daß der Erkenner (16) mit registrierten Benutzern arbeitet
und die Möglichkeit des Trainings und des weiteren Lernen
bietet.
8. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß der digitale Text (18) als Ausgabe des Erkenners (16) an
das Mobiltelefon (2) und nach der Editiermöglichkeit durch
den Benutzer (B) über eine standardisierten Dienst versendet
wird, insbesondere über SMS versendet wird.
9. Verfahren nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet,
daß der Austausch von Daten zwischen dem Mobiltelefon (2) und
dem Rechnerknoten (14) über digitale Übertragungskanäle (12,
20) nach dem GMS- oder UTMS-Standard vorgenommen wird.
10. Vorrichtung zum Erstellen einer Textdatei mittels
Spracherkennung, insbesondere zum Ausführen eines Verfahrens
nach den Ansprüchen 1 bis 9, mit einem Front-end zur Vorver
arbeitung eines Sprachsignals in einem Endgerät, einer digi
talen Sende- und Empfangseinrichtung in dem Endgerät und ei
nem Rechnerknoten, wobei in dem Rechnerknoten ein Erkenner
vorgesehen ist,
dadurch gekennzeichnet,
- - daß als Endgerät zur Spracheingabe ein Mobiltelefon (2) vorgesehen ist,
- - das Mobiltelefon (2) für eine Einrichtung (6) zur Vorverar beitung der Spracheingabe (5) in Form einer Sprachanalyse mit der Ausgabe digitaler Merkmalsvektoren ausgebildet ist,
- - Einrichtungen (6) zur Übersendung des vorverarbeiteten Si gnals (8) über das Mobiltelefon (2) an einen Rechnerknoten (14), insbesondere einen Switch eines Netzbetreibers, vor gesehen sind,
- - der Rechnerknoten (14) einen Spracherkenner (16) zur Verar beitung des vorverarbeiteten Signal (8) aufweist und
- - in dem Rechnerknoten (14) eine Einrichtung (19) zur Rück sendung einer Ausgabe des Erkenners (16) als digitaler Text (18) an das Mobiltelefon (2) vorhanden ist.
11. Vorrichtung nach Anspruch 10,
dadurch gekennzeichnet,
daß als Übertragungsstrecke zwischen dem Mobiltelefon (2) und
dem Rechnerknoten (14) ein digitaler Übertragungskanal (12,
20) nach dem GMS- oder UTMS-Standard vorgesehen ist.
12. Vorrichtung nach einem der Ansprüche 10-11,
dadurch gekennzeichnet,
daß Spracherkenner (16) ein HMM-Erkenner oder ein auf neuro
nalen Netzen basierender Spracherkenner ist.
13. Vorrichtung nach einem der Ansprüche 10-12,
dadurch gekennzeichnet,
daß in dem Rechnerknoten (14) eine Einrichtung zur Registrie
rung eines jeweiligen Benutzers vorgesehen ist.
14. Vorrichtung nach einem der Ansprüche 10-13,
dadurch gekennzeichnet,
daß in dem Mobiltelefon (2) ein Speicher für eine Einrichtung
zur Vorverarbeitung der zu verarbeitenden Spracheingaben (5)
vorgesehen ist.
15. Vorrichtung nach einem der Ansprüche 10-14,
dadurch gekennzeichnet,
daß in dem Mobiltelefon (2) ein Speicher (25) für einen vom
dem Rechnerknoten (14) zurück empfangenen digitalen Text (18)
vorgesehen ist.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10003529A DE10003529A1 (de) | 2000-01-27 | 2000-01-27 | Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung |
PCT/DE2001/000052 WO2001056020A1 (de) | 2000-01-27 | 2001-01-09 | Verfahren und vorrichtung zum erstellen einer textdatei mittels spracherkennung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10003529A DE10003529A1 (de) | 2000-01-27 | 2000-01-27 | Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10003529A1 true DE10003529A1 (de) | 2001-08-16 |
Family
ID=7628905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10003529A Ceased DE10003529A1 (de) | 2000-01-27 | 2000-01-27 | Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE10003529A1 (de) |
WO (1) | WO2001056020A1 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10213163A1 (de) * | 2002-03-23 | 2003-10-02 | Deutsche Telekom Ag | Verfahren zur Korrektur von Texten |
US7162424B2 (en) | 2001-04-26 | 2007-01-09 | Siemens Aktiengesellschaft | Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language |
DE102011055672A1 (de) | 2011-11-24 | 2013-05-29 | Ben Fredj Mehdi | Verfahren zur Extraktion und Übersetzung eines Sprachinhalts, Vorrichtung auf dem das Verfahren durchführbar gespeichert ist und Verwendung eines dezentralen Netzwerks zur Durchführung des Verfahrens |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4331710A1 (de) * | 1993-09-17 | 1995-03-23 | Sel Alcatel Ag | Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5546538A (en) * | 1993-12-14 | 1996-08-13 | Intel Corporation | System for processing handwriting written by user of portable computer by server or processing by the computer when the computer no longer communicate with server |
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
AU684872B2 (en) * | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
JP3402100B2 (ja) * | 1996-12-27 | 2003-04-28 | カシオ計算機株式会社 | 音声制御ホスト装置 |
GB2323693B (en) * | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
-
2000
- 2000-01-27 DE DE10003529A patent/DE10003529A1/de not_active Ceased
-
2001
- 2001-01-09 WO PCT/DE2001/000052 patent/WO2001056020A1/de active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4331710A1 (de) * | 1993-09-17 | 1995-03-23 | Sel Alcatel Ag | Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7162424B2 (en) | 2001-04-26 | 2007-01-09 | Siemens Aktiengesellschaft | Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language |
DE10213163A1 (de) * | 2002-03-23 | 2003-10-02 | Deutsche Telekom Ag | Verfahren zur Korrektur von Texten |
DE102011055672A1 (de) | 2011-11-24 | 2013-05-29 | Ben Fredj Mehdi | Verfahren zur Extraktion und Übersetzung eines Sprachinhalts, Vorrichtung auf dem das Verfahren durchführbar gespeichert ist und Verwendung eines dezentralen Netzwerks zur Durchführung des Verfahrens |
Also Published As
Publication number | Publication date |
---|---|
WO2001056020A1 (de) | 2001-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69725761T2 (de) | System und verfahren zur kodierung und zur aussendung von sprachdaten | |
DE60222093T2 (de) | Verfahren, modul, vorrichtung und server zur spracherkennung | |
DE69839068T2 (de) | System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung | |
DE69814181T2 (de) | Verfahren und vorrichtung zur konfiguration eines spracherkennungssystems | |
DE69827667T2 (de) | Vokoder basierter spracherkenner | |
EP0963581B1 (de) | Verfahren und system zur bereitstellung und übermittlung individualisierter verkehrsinformationen | |
DE60021761T2 (de) | System zur speicherung und bereitstellung von mobilkommunikations - adress - informationen | |
DE3236832A1 (de) | Verfahren und geraet zur sprachanalyse | |
DE10235548A1 (de) | Verfahren und Vorrichtung für die Prädiktion einer Textnachrichteneingabe | |
DE60037702T2 (de) | Anordnung und Verfahren zum Steuern des Kurznachrichtdienstes einer digitalen Mobilstation | |
WO2002018897A1 (de) | Sprachgesteuerte anordnung und verfahren zur spracheingabe und -erkennung | |
EP3095114B1 (de) | Verfahren und system zur erzeugung eines steuerungsbefehls | |
DE10040386B4 (de) | Vorrichtung und Verfahren für das Ausgeben von Daten auf einem Anzeigeabschnitt eines tragbaren Telefons in Form von Sprache | |
EP1361737A1 (de) | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen | |
EP1361740A1 (de) | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs | |
EP1590797A1 (de) | Kommunikationssystem, kommunikationsendeinrichtung und vorrichtung zum erkennen fehlerbehafteter text-nachrichten | |
DE10003529A1 (de) | Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung | |
WO2005106706A2 (de) | Verfahren sowie anordnung zum automatischen übersetzen eines textes | |
DE4243181C2 (de) | Sprachgesteuerte Vorrichtung und Verfahren zu deren Betrieb | |
EP1352388B1 (de) | Verfahren und anordnung zur spracherkennung für ein kleingerät | |
EP1361738A1 (de) | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse | |
DE60122327T2 (de) | Verfahren und vorrichtung zur abschwächung von übertragungsfehlern in einem verteilten spracherkennungsverfahren und system | |
DE19918382A1 (de) | Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät | |
DE10006937C2 (de) | Verfahren für einen Rückverfolgungsmatrixspeicher in einem Sprachwiedererkennungssystem | |
DE10127852A1 (de) | Verfahren zur Erkennung von Sprachinformationen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8131 | Rejection |