DE10003529A1 - Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung - Google Patents

Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung

Info

Publication number
DE10003529A1
DE10003529A1 DE10003529A DE10003529A DE10003529A1 DE 10003529 A1 DE10003529 A1 DE 10003529A1 DE 10003529 A DE10003529 A DE 10003529A DE 10003529 A DE10003529 A DE 10003529A DE 10003529 A1 DE10003529 A1 DE 10003529A1
Authority
DE
Germany
Prior art keywords
mobile phone
recognizer
computer node
digital
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10003529A
Other languages
English (en)
Inventor
Ralph Wilhelm
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE10003529A priority Critical patent/DE10003529A1/de
Priority to PCT/DE2001/000052 priority patent/WO2001056020A1/de
Publication of DE10003529A1 publication Critical patent/DE10003529A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/5322Centralised arrangements for recording incoming messages, i.e. mailbox systems for recording text messages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/533Voice mail systems
    • H04M3/53316Messaging centre selected by message originator
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2207/00Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
    • H04M2207/18Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place wireless networks

Abstract

Die Erfindung zeichnet sich dadurch aus, daß ein Mobiltelefon als Endgerät zur Spracheingabe vorgesehen ist, das Mobiltelefon für eine Vorverarbeitung der Spracheingabe in Form einer Sprachanalyse mit der Ausgabe digitaler Merkmalsvektoren ausgebildet ist, Einrichtungen zur Übersendung des vorverarbeiteten Signals über das Mobiltelefon an einen Rechnerknoten vorgesehen sind, der Rechnerknoten einen Spracherkenner zur Verarbeitung des vorverarbeiteten Signals aufweist und in dem Rechnerknoten eine Einrichtung zur Rücksendung einer Ausgabe des HMM-Erkenners als digitaler Text an das Mobiltelefon vorhanden ist.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Erstel­ len einer Textdatei mittels Spracherkennung gemäß dem Oberbe­ griff des Patentanspruchs 1 und eine Vorrichtung zum Erstel­ len einer Textdatei mittels Spracherkennung gemäß dem Oberbe­ griff des Patentanspruchs 10.
Bisher bekannte Verfahren und Vorrichtungen der genannten Art arbeiten komplexe Programme auf sehr leistungsfähigen Rechen­ anlagen ab. Auch bei der stetig wachsenden Leistungsfähigkeit und höheren Integration ist es bislang nicht möglich, an be­ liebiger Stelle mit einem Computer so wie mit einem Menschen zu sprechen. Derartige Vorrichtungen sind noch immer zu groß und/oder zu teuer, um allgegenwärtig verfügbar zu sein.
Unter der Bezeichnung 'AURORA' ist ein Forschungs- und Ent­ wicklungs-Projekt bekannt geworden, für das eine Verbesserung des Preis/Leistungsverhältnisses von Verfahren und Vorrich­ tungen der genannten Art durch den Einsatz von Client/Server- Strukturen bei verteilter Spracherkennung zum Ziel gesetzt worden ist. In einem Client wird beispielsweise nur ein Front-end der Vorrichtung als Eingabemodul mit einer wenig Energie verbrauchenden Einheit zur digitalen Signalverarbei­ tung ('digital signal processing unit' bzw. DSP) unterge­ bracht. Das analog eingehende Sprachsignal wird vorverarbei­ tet. Nachfolgend wird es als fehlerkorrigierbares Digitalsi­ gnal mit im Vergleich zu einem unbearbeiteten Sprachsignal relativ niedriger Bit Rate an den Server übertragen. Die ei­ gentliche Spracherkennung wird dann im Server vorgenommen.
Demnach ist es die Aufgabe der vorliegenden Erfindung, Ver­ fahren und Vorrichtungen der genannten Art unter Einsatz von üblicher mobiler Endgeräten weiterzuentwickeln, wobei die begrenzten technischen Möglichkeiten bekannter mobiler Endgerä­ te und deren Preis für den Endverbraucher berücksichtigt wer­ den müssen.
Diese Aufgabe wird durch ein Verfahren mit den Merkmale des Patentanspruchs 1 bzw. durch eine Vorrichtung gemäß Patentan­ spruch 10 gelöst.
Demnach umfaßt ein erfindungsgemäßes Verfahren eine Vorverar­ beitung eines Sprachsignals in einem Mobiltelefon als mobiles Endgerät, eine vollständige Spracherkennung außerhalb des Mo­ biltelefons in einem leistungsstarken Rechner sowie eine Rücksendung des erkannten Textes an das Mobiltelefon zur Kon­ trolle, gegebenenfalls zur Korrektur und schließlich zum Ver­ sand.
Als mobile Endgeräte sind Mobiltelefone heute sehr weit ver­ breitet. Mit dem Mobiltelefon kann man heutzutage nicht nur gesprochene Sprache empfangen und versenden, sondern auch textuelle Nachrichten in Form von Kurznachrichten bzw. SMS- Nachrichten oder von EMails. Diese haben für den Empfänger die bekannten Vorteile von EMails auf vernetzten PCs. Zusätz­ lich empfängt der Benutzer sie direkt auf dem Mobiltelefon, ohne dafür kostenpflichtig seine Mailbox abfragen zu müssen. Die Erstellung solcher Nachrichten mit dem Mobiltelefon als Eingabegerät ist jedoch sehr mühsam. Der Text einer SMS- Nachricht oder einer EMail wird dabei gewöhnlich mit der Zif­ ferntastatur des Mobiltelefons eingegeben. Da die 26 Buchsta­ ben und die diversen Satz- und Sonderzeichen auf die 10 + 2 Zifferntasten abgebildet werden müssen, ist das Problem der Eingabe bisher dadurch gelöst worden, das man eine jede Zif­ ferntaste mit zwischen 3 und 17 Buchstaben und Zeichen be­ legt, siehe zum Beispiel das Mobiltelefon Siemens S10. Will man nun z. B. das 13. Zeichen einer Taste in seinen Text auf­ nehmen, muß diese Taste in schneller Folge 13mal hintereinan­ der gedrückt werden. Die Erstellung einer Nachricht auf diese Weise erweist sich in der Praxis als sehr mühsam, fehleran­ fällig und vor allem auch extrem zeitintensiv.
Da man ein Telefon bzw. Mobiltelefon vornehmlich zur Über­ mittlung gesprochener Sprache verwendet, wird diese natürli­ che und für den Benutzer intuitivste und bequemste Art der Bedienung erfindungsgemäß auch für die Erstellung der textu­ ellen Nachrichten verwendet. Der Ersteller der SMS-Nachricht oder EMail tippt diese also nicht, sondern er diktiert diese, ähnlich wie in ein herkömmliches Handdiktiergerät. Ein Spra­ cherkennungssystem wandelt dieses Diktat dann in den SMS- oder EMail-Text um. Mit der verfügbaren Technologie kann die­ ses Diktat in natürlicher und kontinuierlicher Sprechweise erfolgen, das heißt mit fließend gesprochener Sprache, ohne Pausen zwischen den Wörtern und ohne der Notwendigkeit eines vorhergehenden Sprechertrainings. Nachdem er das Diktat been­ det hat, hat der Benutzer die Option, sich den soeben dik­ tierten Text auf dem Display des Mobiltelefons noch einmal anzeigen zu lassen und gegebenenfalls Korrekturen vorzuneh­ men, wobei hier auf die Tastaturbedienung, wie sie auch zur üblichen SMS-Erstellung verwendet wird, zurückgegriffen wer­ den kann. Erfindungsgemäß erfolgt damit die Erstellung von textuellen Nachrichten im wesentlichen mittels kontinuierli­ cher Sprache mit dem Mobiltelefon als Endgerät. Das Mobilte­ lefon wird also wie ein klassisches Handdiktiergerät, und da­ mit sehr intuitiv bedient, während das Ergebnis beispielswei­ se eine SMS-Nachricht oder auch eine EMail oder eine sonstige Textdatei ist. Dies stellt für den Benutzer eine erhebliche Vereinfachung der Eingabe von SMS-Nachrichten und EMail mit dem Mobiltelefon gegenüber der herkömmlichen Methode dar und erhöht damit die Benutzerakzeptanz.
Da ein erfindungsgemäßes Spracherkennungssystem viel Rechen­ leistung und Speicherplatz und damit bei heute verfügbarer Technologie viel Platz und Strom benötigt, wird der Spracher­ kenner nicht in das Endgerät selbst eingebaut werden. Der Spracherkenner läßt sich jedoch in einem Knotenrechner bzw. in einem Switch des Netzbetreibers oder bei einem eigenen Service-Provider installieren. Somit wird im Rahmen der vor­ liegenden Erfindung eine Client/Server-Struktur mit vielen Anwendern realisiert, die in ihrer Größe weitgehend frei ska­ lierbar ist. Die großen Investitionen werden auf die Seite des Service-Providers bzw. Netzbetreibers verlagert. Dort können sie mit dem bisher schon üblichen Apparateaufwand kom­ biniert werden, so daß der Spracherkenner nur eine weitere Ausbaustufe eines bereits existierenden Systems darstellt.
Hingegen werden die mobilen Endgeräte bzw. die Mobiltelefone durch eine erfindungsgemäße Ausrüstung vorteilhafterweise nur unwesentlich verteuert. Bei der heute üblichen Nutzung digi­ taler Übertragungskanäle sind in modernen Mobiltelefonen schon serienmäßig sehr leistungsfähige Prozessoren zur digi­ talen Sprachsignalverarbeitung DSP integriert. Hier ist also nur eine Anpassung an eine erfindungsgemäße Vorverarbeitung des Sprachsignals durchzuführen. Es wird also der Bedienungs­ komfort eines erfindungsgemäßen Mobiltelefons bei geringen Mehrkosten erheblich gesteigert. Ein erfindungsgemäßes Ver­ fahren kann dabei auch als Option an einem Mobiltelefon in­ stalliert sein, das erst durch Abonnieren eines entsprechen­ den zusätzlichen Dienstes bei einem Provider bzw. Netzbetrei­ ber aktiviert wird.
Schon diese Beispiele zeigen die hohe preisliche Flexibilität bei der Umsetzung eines erfindungsgemäßen Verfahrens und ei­ ner dementsprechenden Vorrichtung auf, die wesentliche Vor­ aussetzungen für eine gute Akzeptanz bei deren Einführung in einem Markt sind, der unter starken Preisdruck steht. Durch eine Ausgliederung eines erfindungsgemäßen Verfahrens in ei­ nen zusätzlichen Dienst bieten sich auch Möglichkeiten für neue Anbieter, die sich in dem Bereich der Erkenner speziali­ sieren.
Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens bzw. der erfindungsgemäßen Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung sind Gegenstand von Un­ teransprüchen.
Die vorliegende Erfindung wird im folgenden unter Bezugnahme auf die zugehörigen Zeichnungen anhand eines Ausführungsbei­ spiels näher erläutert.
In den Zeichnungen zeigt:
Fig. 1 eine schematische Ansicht einer Vorrichtung zum Er­ stellen einer Textdatei mittels Spracherkennung gemäß einer bevorzugten Ausführungsform nach der vorliegen­ den Erfindung und
Fig. 2 einen über der Zeitachse aufgetragenen Plan des Si­ gnalflusses innerhalb einer erfindungsgemäßen Vorrich­ tung.
In Fig. 1 ist eine schematische Ansicht einer erfindungsgemä­ ßen Vorrichtung zum Erstellen einer Textdatei mittels Spra­ cherkennung dargestellt, das nach dem erfindungsgemäßen Ver­ fahren arbeitet. Die einzelnen Verarbeitungseinrichtungen sind örtlich den beteiligten Geräten zugeordnet und durch funktionale Blöcke repräsentiert. Die Signalwege zwischen den Blöcken sind als Pfeile eingezeichnet.
In der Fig. 1 ist eine Vorrichtung 1 zum Erstellen einer Text­ datei mittels Spracherkennung als Teil eines Mobilfunksystems dargestellt, bei dem ein Teilnehmer bzw. Benutzer B mit einem Mobiltelefon 2 exemplarisch herausgegriffen worden ist. Der prinzipielle Aufbau des Mobilfunksystems ist allgemein be­ kannt und hier nur skizziert dargestellt, da das erfindungs­ gemäße Verfahren mit den nachfolgen beschriebenen Teilen der Vorrichtung 1 in der Form von Modulen dem Mobilfunksystem hinzugefügt werden. Es bleiben somit weite Teile des Mobil­ funksystems unberührt, so daß diese im Rahmen der Darstellung einer Ausführungsform der Erfindung nicht beschrieben werden müssen.
Der Benutzer B wählt an dem Mobiltelefon 2 über eine Taste 3 einer Tastatur 4 als Sonderfunktion das Erstellen einer Text­ datei mittels Spracherkennung aus. Daraufhin wird jede weite­ re Spracheingabe des Benutzers B von der Vorrichtung 1 als zu verarbeitende analoge Spracheingabe 5 gewertet. Dieses Signal wird an eine Einrichtung 6 zur Vorverarbeitung weitergelei­ tet, die die analoge Spracheingabe 5 in ein vorverarbeitetes digitales Signal 8 umformt. Das vorverarbeitete digitale Si­ gnal 8 stellt dabei das Ergebnis einer digitalen Merkmalsana­ lyse der analogen Spracheingabe 5 dar, die in einem zeitli­ chen Abstand von ca. 10 ms in der Form von Merkmalsvektoren von der Einrichtung 6 zur Vorverarbeitung erzeugt wird.
Nach der Vorverarbeitung der Spracheingabe wird das vorverar­ beitete digitale Signal 8 über Sendeeinrichtungen 10 über ei­ nen digitalen Übertragungskanal 12 bspw. nach dem GMS- Standard oder dem zukünftigen UTMS-Standard zu Empfangsein­ richtungen 13 an einen Rechnerknoten 14 übertragen. Durch die Vorverarbeitung ist aus der sehr störanfälligen analogen Spracheingabe 5 als vorverarbeitetes Signal 8 ein digitales Signal erzeugt worden, das wesentlich robuster gegen Störun­ gen der Umgebung und/oder innerhalb der Vorrichtung 1 ist. Dazu ist durch die Übertragung von digitalen Merkmalsvektoren als Inhalt des vorverarbeiteten Signals 8 die zu übertragende Datenmenge gegenüber der bei Übertragung eines gegen Fehler geschützten reinen Digitalsignals wesentlich reduziert. Diese Reduzierung beträgt beispielsweise 160 kBit/s auf ca. 8 bis 16 kBit/s nach der Vorverarbeitung durch eine Sprachanalyse mit Ausgabe nur von Merkmalsvektoren. Für eine mögliche Zwi­ schenspeicherung wird somit auch nur ein relativ kleiner Speicher 15 in dem Mobiltelefon benötigt, was neben einer weiteren Kosteneinsparung auf der Hardware-Seite auch eine Senkung des Energiebedarfs bei einem derartigen Mobiltelefon 2 bewirkt.
Von den Empfangseinrichtungen 13 wird das vorverarbeitete Si­ gnal 8 in dem Rechnerknoten 14 einem Erkenner 16 zugeführt, der die eigentliche Spracherkennung durchführt. Als Erkenner 16 ist ein Hidden Markow Modell-Erkenner, (HMM)-Erkenner, vorgesehen. Es kann jedoch entsprechend der zu erwartenden Fortschritte auch ein auf neuronalen Netzen basierender Er­ kenner an dieser Stelle eingesetzt werden. Vorzugsweise wer­ den sprecherunabhängige continous speech Erkenner in dem Rechnerknoten 14 eingesetzt, der in einer verteilten Cli­ ent/Server-Struktur als Server dient. Der Rechnerknoten 14 ist dabei vorzugsweise zur parallelen Verarbeitung der vor­ verarbeiteten Spracheingaben mehrerer Benutzer ausgelegt, wo­ bei in den Abbildungen der Fig. 1 und 2 der Einfachheit halber nur je ein Benutzer B dargestellt ist.
Der Einsatz sprecherunabhängiger continous speech Erkenner wird in dem Rechnerknoten 14 zwar bevorzugt, es sind jedoch auch einfachere Lösungen denkbar. Da beispielsweise jeder Mo­ biltelefon-Benutzer anhand seiner PIN etc. als Teilnehmer schon für die Abrechnung des Netzbetreibers stets eindeutig identifiziert sein muß ist auch eine Reduzierung der vorste­ henden Anforderungen an den Erkenner 16 hin auf einen benut­ zerabhängigen und trainierbaren Erkenner möglich. Dieses ein­ fachere System arbeitet nach einer Trainingsphase auch mit guten Ergebnissen. Es kann über die gesamte Dauer des Einsat­ zes dazu lernen.
Der zeitliche Ablauf der Signalverarbeitung ist in Fig. 2 dargestellt. Hieraus geht hervor, daß die eigentliche Spra­ cherkennung im Rechnerknoten 14 durchgeführt wird. Nur eine Vorverarbeitung mit Fehlersicherung und Datenreduzierung ist platz- und energiesparend in dem Mobiltelefon 2 selber unter­ gebracht. Störungen auf dem Übertragungskanal können die Spracherkennung nicht negativ beeinflussen, da die Vorverar­ beitung bereits vor der Übertragung in dem Mobiltelefon 2 stattfindet. So muß die Erkennungsleistung nicht vollständig in dem Mobiltelefon 2 eingebaut sein, was die Hardware-Kosten für das Mobiltelefon 2 gering hält.
Am Ausgang des Erkenners 16 liegt als Ergebnis ein digitaler Text 18 vor, der über eine Sendeeinrichtung 19 am Knoten­ rechner auf einem digitalen Übertragungskanal 20 zu einer Empfangseinrichtung 21 an dem Mobiltelefon 2 zurück übersen­ det wird.
Der erkannte digitale Text 18 kann als von dem Benutzer B kontrolliertes Ausgangssignal 22 nun in Form einer SMS oder einer EMail versendet werden. Dem Benutzer B steht in dem Mo­ biltelefon 2 ein Editor 23 für eine Anzeige auf einem Display 24 zur Verfügung, siehe Fig. 1. Eine Korrektur ist durch den Benutzer B in gewohnter Weise über die Tastatur 4 des Mobil­ telefons 2 möglich. Weiter kann der digitale Text 18 in einem RAM-Speicher 25 in dem Mobiltelefon 2 abgespeichert werden, so daß eine Kontrolle mit anschließendem Versand zeitlich von der Rücksendung des erkannten digitalen Texts 18 getrennt werden kann. Diese Speicher 25 kann jedoch auch hin zum Pro­ vider bzw. Netzbetreiber ausgelagert werden und in dem Rech­ nerknoten 14 vorgehalten werden, wie dies beispielsweise bei EMail-Providern üblich ist. Dann wird dem Benutzer B auf dem Display 24 beispielsweise nur über ein Symbol die Bereitstel­ lung des erkannten digitalen Texts 18 zur Abholung angezeigt.
Dieser Text 18 ist über ein Diktat durch die beschriebene Vorrichtung 1 sehr bequem eingegeben worden. Dabei ist trotz der Hin- und Rücksendung zwischen Mobiltelefon 2 und Knoten­ rechner 16 der abzuwickelnde Datenverkehr trotzdem insgesamt relativ gering.
Durch eine vorstehend beschriebene Vorrichtung kann eine neue Funktion in einem attraktiven Preis/Leistungsverhältnis im Markt etabliert werden. Bei entsprechend anhaltender Lei­ stungsentwicklung im Bereich der Hardware und Software wird diese Funktion in näherer Zukunft eventuell auch in einem Mo­ biltelefon selber untergebracht werden können.

Claims (15)

1. Verfahren zum Erstellen einer Textdatei mittels Spra­ cherkennung, bei dem
  • - eine Spracheingabe in ein Endgerät als Front-end
  • - mit digitaler Vorverarbeitung erfolgt und
  • - das vorverarbeitete Signal an einen Server versendet wird,
  • - in dem die Spracherkennung in einem Erkenner vorgenommen wird,
dadurch gekennzeichnet, daß
  • - die Spracheingabe in ein Mobiltelefon (2) erfolgt,
  • - in dem eine Vorverarbeitung der Spracheingabe (5) in Form einer Analyse des Sprachsignals mit digitaler Ausgabe ins­ besondere von Merkmalsvektoren vorgenommen wird,
  • - das vorverarbeitete Signal (8) über das Mobiltelefon (2) an einen Rechnerknoten (14) als Server versendet wird, bei­ spielsweise einen Switch eines Netzbetreibers,
  • - in dem Rechnerknoten (14) einer Spracherkennung mit einem Erkenner (16) unterzogen wird und
  • - die Ausgabe des Erkenners (16) als digitaler Text (18) an das Mobiltelefon (2) zurückgesendet wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der digitale Text (18) an dem Mobiltelefon (2) editiert wird, beispielsweise zum Zweck einer Kontrolle, Korrektur oder Erweiterung.
3. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß das Editieren mit einer Korrektur oder Erweiterung des digitalen Texts (18) durch eine Eingabe an einer Tastatur (4) an dem Mobiltelefon (2) erfolgt.
4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß bei der Analyse der Spracheingabe (5) Merkmale in Zeitab­ ständen von ungefähr 10 ms in der Form von Merkmalsvektoren ermittelt werden.
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Erkenner (16) als HMM-Erkenner sprecherunabhängig ar­ beitet.
6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Erkenner (16) in einem Continous-speech Verfahren ar­ beitet.
7. Verfahren nach einem der Ansprüche 1-4, dadurch gekennzeichnet, daß der Erkenner (16) mit registrierten Benutzern arbeitet und die Möglichkeit des Trainings und des weiteren Lernen bietet.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der digitale Text (18) als Ausgabe des Erkenners (16) an das Mobiltelefon (2) und nach der Editiermöglichkeit durch den Benutzer (B) über eine standardisierten Dienst versendet wird, insbesondere über SMS versendet wird.
9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Austausch von Daten zwischen dem Mobiltelefon (2) und dem Rechnerknoten (14) über digitale Übertragungskanäle (12, 20) nach dem GMS- oder UTMS-Standard vorgenommen wird.
10. Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung, insbesondere zum Ausführen eines Verfahrens nach den Ansprüchen 1 bis 9, mit einem Front-end zur Vorver­ arbeitung eines Sprachsignals in einem Endgerät, einer digi­ talen Sende- und Empfangseinrichtung in dem Endgerät und ei­ nem Rechnerknoten, wobei in dem Rechnerknoten ein Erkenner vorgesehen ist, dadurch gekennzeichnet,
  • - daß als Endgerät zur Spracheingabe ein Mobiltelefon (2) vorgesehen ist,
  • - das Mobiltelefon (2) für eine Einrichtung (6) zur Vorverar­ beitung der Spracheingabe (5) in Form einer Sprachanalyse mit der Ausgabe digitaler Merkmalsvektoren ausgebildet ist,
  • - Einrichtungen (6) zur Übersendung des vorverarbeiteten Si­ gnals (8) über das Mobiltelefon (2) an einen Rechnerknoten (14), insbesondere einen Switch eines Netzbetreibers, vor­ gesehen sind,
  • - der Rechnerknoten (14) einen Spracherkenner (16) zur Verar­ beitung des vorverarbeiteten Signal (8) aufweist und
  • - in dem Rechnerknoten (14) eine Einrichtung (19) zur Rück­ sendung einer Ausgabe des Erkenners (16) als digitaler Text (18) an das Mobiltelefon (2) vorhanden ist.
11. Vorrichtung nach Anspruch 10, dadurch gekennzeichnet, daß als Übertragungsstrecke zwischen dem Mobiltelefon (2) und dem Rechnerknoten (14) ein digitaler Übertragungskanal (12, 20) nach dem GMS- oder UTMS-Standard vorgesehen ist.
12. Vorrichtung nach einem der Ansprüche 10-11, dadurch gekennzeichnet, daß Spracherkenner (16) ein HMM-Erkenner oder ein auf neuro­ nalen Netzen basierender Spracherkenner ist.
13. Vorrichtung nach einem der Ansprüche 10-12, dadurch gekennzeichnet, daß in dem Rechnerknoten (14) eine Einrichtung zur Registrie­ rung eines jeweiligen Benutzers vorgesehen ist.
14. Vorrichtung nach einem der Ansprüche 10-13, dadurch gekennzeichnet, daß in dem Mobiltelefon (2) ein Speicher für eine Einrichtung zur Vorverarbeitung der zu verarbeitenden Spracheingaben (5) vorgesehen ist.
15. Vorrichtung nach einem der Ansprüche 10-14, dadurch gekennzeichnet, daß in dem Mobiltelefon (2) ein Speicher (25) für einen vom dem Rechnerknoten (14) zurück empfangenen digitalen Text (18) vorgesehen ist.
DE10003529A 2000-01-27 2000-01-27 Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung Ceased DE10003529A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE10003529A DE10003529A1 (de) 2000-01-27 2000-01-27 Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung
PCT/DE2001/000052 WO2001056020A1 (de) 2000-01-27 2001-01-09 Verfahren und vorrichtung zum erstellen einer textdatei mittels spracherkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10003529A DE10003529A1 (de) 2000-01-27 2000-01-27 Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung

Publications (1)

Publication Number Publication Date
DE10003529A1 true DE10003529A1 (de) 2001-08-16

Family

ID=7628905

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10003529A Ceased DE10003529A1 (de) 2000-01-27 2000-01-27 Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung

Country Status (2)

Country Link
DE (1) DE10003529A1 (de)
WO (1) WO2001056020A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10213163A1 (de) * 2002-03-23 2003-10-02 Deutsche Telekom Ag Verfahren zur Korrektur von Texten
US7162424B2 (en) 2001-04-26 2007-01-09 Siemens Aktiengesellschaft Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language
DE102011055672A1 (de) 2011-11-24 2013-05-29 Ben Fredj Mehdi Verfahren zur Extraktion und Übersetzung eines Sprachinhalts, Vorrichtung auf dem das Verfahren durchführbar gespeichert ist und Verwendung eines dezentralen Netzwerks zur Durchführung des Verfahrens

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4331710A1 (de) * 1993-09-17 1995-03-23 Sel Alcatel Ag Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5546538A (en) * 1993-12-14 1996-08-13 Intel Corporation System for processing handwriting written by user of portable computer by server or processing by the computer when the computer no longer communicate with server
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
AU684872B2 (en) * 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
JP3402100B2 (ja) * 1996-12-27 2003-04-28 カシオ計算機株式会社 音声制御ホスト装置
GB2323693B (en) * 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4331710A1 (de) * 1993-09-17 1995-03-23 Sel Alcatel Ag Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7162424B2 (en) 2001-04-26 2007-01-09 Siemens Aktiengesellschaft Method and system for defining a sequence of sound modules for synthesis of a speech signal in a tonal language
DE10213163A1 (de) * 2002-03-23 2003-10-02 Deutsche Telekom Ag Verfahren zur Korrektur von Texten
DE102011055672A1 (de) 2011-11-24 2013-05-29 Ben Fredj Mehdi Verfahren zur Extraktion und Übersetzung eines Sprachinhalts, Vorrichtung auf dem das Verfahren durchführbar gespeichert ist und Verwendung eines dezentralen Netzwerks zur Durchführung des Verfahrens

Also Published As

Publication number Publication date
WO2001056020A1 (de) 2001-08-02

Similar Documents

Publication Publication Date Title
DE69725761T2 (de) System und verfahren zur kodierung und zur aussendung von sprachdaten
DE60222093T2 (de) Verfahren, modul, vorrichtung und server zur spracherkennung
DE69839068T2 (de) System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung
DE69814181T2 (de) Verfahren und vorrichtung zur konfiguration eines spracherkennungssystems
DE69827667T2 (de) Vokoder basierter spracherkenner
EP0963581B1 (de) Verfahren und system zur bereitstellung und übermittlung individualisierter verkehrsinformationen
DE60021761T2 (de) System zur speicherung und bereitstellung von mobilkommunikations - adress - informationen
DE3236832A1 (de) Verfahren und geraet zur sprachanalyse
DE10235548A1 (de) Verfahren und Vorrichtung für die Prädiktion einer Textnachrichteneingabe
DE60037702T2 (de) Anordnung und Verfahren zum Steuern des Kurznachrichtdienstes einer digitalen Mobilstation
WO2002018897A1 (de) Sprachgesteuerte anordnung und verfahren zur spracheingabe und -erkennung
EP3095114B1 (de) Verfahren und system zur erzeugung eines steuerungsbefehls
DE10040386B4 (de) Vorrichtung und Verfahren für das Ausgeben von Daten auf einem Anzeigeabschnitt eines tragbaren Telefons in Form von Sprache
EP1361737A1 (de) Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
EP1361740A1 (de) Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
EP1590797A1 (de) Kommunikationssystem, kommunikationsendeinrichtung und vorrichtung zum erkennen fehlerbehafteter text-nachrichten
DE10003529A1 (de) Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung
WO2005106706A2 (de) Verfahren sowie anordnung zum automatischen übersetzen eines textes
DE4243181C2 (de) Sprachgesteuerte Vorrichtung und Verfahren zu deren Betrieb
EP1352388B1 (de) Verfahren und anordnung zur spracherkennung für ein kleingerät
EP1361738A1 (de) Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE60122327T2 (de) Verfahren und vorrichtung zur abschwächung von übertragungsfehlern in einem verteilten spracherkennungsverfahren und system
DE19918382A1 (de) Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät
DE10006937C2 (de) Verfahren für einen Rückverfolgungsmatrixspeicher in einem Sprachwiedererkennungssystem
DE10127852A1 (de) Verfahren zur Erkennung von Sprachinformationen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection