DE10003529A1

DE10003529A1 - Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung

Info

Publication number: DE10003529A1
Application number: DE10003529A
Authority: DE
Inventors: Ralph Wilhelm
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2000-01-27
Filing date: 2000-01-27
Publication date: 2001-08-16
Also published as: WO2001056020A1

Abstract

Die Erfindung zeichnet sich dadurch aus, daß ein Mobiltelefon als Endgerät zur Spracheingabe vorgesehen ist, das Mobiltelefon für eine Vorverarbeitung der Spracheingabe in Form einer Sprachanalyse mit der Ausgabe digitaler Merkmalsvektoren ausgebildet ist, Einrichtungen zur Übersendung des vorverarbeiteten Signals über das Mobiltelefon an einen Rechnerknoten vorgesehen sind, der Rechnerknoten einen Spracherkenner zur Verarbeitung des vorverarbeiteten Signals aufweist und in dem Rechnerknoten eine Einrichtung zur Rücksendung einer Ausgabe des HMM-Erkenners als digitaler Text an das Mobiltelefon vorhanden ist.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Erstel len einer Textdatei mittels Spracherkennung gemäß dem Oberbe griff des Patentanspruchs 1 und eine Vorrichtung zum Erstel len einer Textdatei mittels Spracherkennung gemäß dem Oberbe griff des Patentanspruchs 10.

Bisher bekannte Verfahren und Vorrichtungen der genannten Art arbeiten komplexe Programme auf sehr leistungsfähigen Rechen anlagen ab. Auch bei der stetig wachsenden Leistungsfähigkeit und höheren Integration ist es bislang nicht möglich, an be liebiger Stelle mit einem Computer so wie mit einem Menschen zu sprechen. Derartige Vorrichtungen sind noch immer zu groß und/oder zu teuer, um allgegenwärtig verfügbar zu sein.

Unter der Bezeichnung 'AURORA' ist ein Forschungs- und Ent wicklungs-Projekt bekannt geworden, für das eine Verbesserung des Preis/Leistungsverhältnisses von Verfahren und Vorrich tungen der genannten Art durch den Einsatz von Client/Server- Strukturen bei verteilter Spracherkennung zum Ziel gesetzt worden ist. In einem Client wird beispielsweise nur ein Front-end der Vorrichtung als Eingabemodul mit einer wenig Energie verbrauchenden Einheit zur digitalen Signalverarbei tung ('digital signal processing unit' bzw. DSP) unterge bracht. Das analog eingehende Sprachsignal wird vorverarbei tet. Nachfolgend wird es als fehlerkorrigierbares Digitalsi gnal mit im Vergleich zu einem unbearbeiteten Sprachsignal relativ niedriger Bit Rate an den Server übertragen. Die ei gentliche Spracherkennung wird dann im Server vorgenommen.

Demnach ist es die Aufgabe der vorliegenden Erfindung, Ver fahren und Vorrichtungen der genannten Art unter Einsatz von üblicher mobiler Endgeräten weiterzuentwickeln, wobei die begrenzten technischen Möglichkeiten bekannter mobiler Endgerä te und deren Preis für den Endverbraucher berücksichtigt wer den müssen.

Diese Aufgabe wird durch ein Verfahren mit den Merkmale des Patentanspruchs 1 bzw. durch eine Vorrichtung gemäß Patentan spruch 10 gelöst.

Demnach umfaßt ein erfindungsgemäßes Verfahren eine Vorverar beitung eines Sprachsignals in einem Mobiltelefon als mobiles Endgerät, eine vollständige Spracherkennung außerhalb des Mo biltelefons in einem leistungsstarken Rechner sowie eine Rücksendung des erkannten Textes an das Mobiltelefon zur Kon trolle, gegebenenfalls zur Korrektur und schließlich zum Ver sand.

Als mobile Endgeräte sind Mobiltelefone heute sehr weit ver breitet. Mit dem Mobiltelefon kann man heutzutage nicht nur gesprochene Sprache empfangen und versenden, sondern auch textuelle Nachrichten in Form von Kurznachrichten bzw. SMS- Nachrichten oder von EMails. Diese haben für den Empfänger die bekannten Vorteile von EMails auf vernetzten PCs. Zusätz lich empfängt der Benutzer sie direkt auf dem Mobiltelefon, ohne dafür kostenpflichtig seine Mailbox abfragen zu müssen. Die Erstellung solcher Nachrichten mit dem Mobiltelefon als Eingabegerät ist jedoch sehr mühsam. Der Text einer SMS- Nachricht oder einer EMail wird dabei gewöhnlich mit der Zif ferntastatur des Mobiltelefons eingegeben. Da die 26 Buchsta ben und die diversen Satz- und Sonderzeichen auf die 10 + 2 Zifferntasten abgebildet werden müssen, ist das Problem der Eingabe bisher dadurch gelöst worden, das man eine jede Zif ferntaste mit zwischen 3 und 17 Buchstaben und Zeichen be legt, siehe zum Beispiel das Mobiltelefon Siemens S10. Will man nun z. B. das 13. Zeichen einer Taste in seinen Text auf nehmen, muß diese Taste in schneller Folge 13mal hintereinan der gedrückt werden. Die Erstellung einer Nachricht auf diese Weise erweist sich in der Praxis als sehr mühsam, fehleran fällig und vor allem auch extrem zeitintensiv.

Da man ein Telefon bzw. Mobiltelefon vornehmlich zur Über mittlung gesprochener Sprache verwendet, wird diese natürli che und für den Benutzer intuitivste und bequemste Art der Bedienung erfindungsgemäß auch für die Erstellung der textu ellen Nachrichten verwendet. Der Ersteller der SMS-Nachricht oder EMail tippt diese also nicht, sondern er diktiert diese, ähnlich wie in ein herkömmliches Handdiktiergerät. Ein Spra cherkennungssystem wandelt dieses Diktat dann in den SMS- oder EMail-Text um. Mit der verfügbaren Technologie kann die ses Diktat in natürlicher und kontinuierlicher Sprechweise erfolgen, das heißt mit fließend gesprochener Sprache, ohne Pausen zwischen den Wörtern und ohne der Notwendigkeit eines vorhergehenden Sprechertrainings. Nachdem er das Diktat been det hat, hat der Benutzer die Option, sich den soeben dik tierten Text auf dem Display des Mobiltelefons noch einmal anzeigen zu lassen und gegebenenfalls Korrekturen vorzuneh men, wobei hier auf die Tastaturbedienung, wie sie auch zur üblichen SMS-Erstellung verwendet wird, zurückgegriffen wer den kann. Erfindungsgemäß erfolgt damit die Erstellung von textuellen Nachrichten im wesentlichen mittels kontinuierli cher Sprache mit dem Mobiltelefon als Endgerät. Das Mobilte lefon wird also wie ein klassisches Handdiktiergerät, und da mit sehr intuitiv bedient, während das Ergebnis beispielswei se eine SMS-Nachricht oder auch eine EMail oder eine sonstige Textdatei ist. Dies stellt für den Benutzer eine erhebliche Vereinfachung der Eingabe von SMS-Nachrichten und EMail mit dem Mobiltelefon gegenüber der herkömmlichen Methode dar und erhöht damit die Benutzerakzeptanz.

Da ein erfindungsgemäßes Spracherkennungssystem viel Rechen leistung und Speicherplatz und damit bei heute verfügbarer Technologie viel Platz und Strom benötigt, wird der Spracher kenner nicht in das Endgerät selbst eingebaut werden. Der Spracherkenner läßt sich jedoch in einem Knotenrechner bzw. in einem Switch des Netzbetreibers oder bei einem eigenen Service-Provider installieren. Somit wird im Rahmen der vor liegenden Erfindung eine Client/Server-Struktur mit vielen Anwendern realisiert, die in ihrer Größe weitgehend frei ska lierbar ist. Die großen Investitionen werden auf die Seite des Service-Providers bzw. Netzbetreibers verlagert. Dort können sie mit dem bisher schon üblichen Apparateaufwand kom biniert werden, so daß der Spracherkenner nur eine weitere Ausbaustufe eines bereits existierenden Systems darstellt.

Hingegen werden die mobilen Endgeräte bzw. die Mobiltelefone durch eine erfindungsgemäße Ausrüstung vorteilhafterweise nur unwesentlich verteuert. Bei der heute üblichen Nutzung digi taler Übertragungskanäle sind in modernen Mobiltelefonen schon serienmäßig sehr leistungsfähige Prozessoren zur digi talen Sprachsignalverarbeitung DSP integriert. Hier ist also nur eine Anpassung an eine erfindungsgemäße Vorverarbeitung des Sprachsignals durchzuführen. Es wird also der Bedienungs komfort eines erfindungsgemäßen Mobiltelefons bei geringen Mehrkosten erheblich gesteigert. Ein erfindungsgemäßes Ver fahren kann dabei auch als Option an einem Mobiltelefon in stalliert sein, das erst durch Abonnieren eines entsprechen den zusätzlichen Dienstes bei einem Provider bzw. Netzbetrei ber aktiviert wird.

Schon diese Beispiele zeigen die hohe preisliche Flexibilität bei der Umsetzung eines erfindungsgemäßen Verfahrens und ei ner dementsprechenden Vorrichtung auf, die wesentliche Vor aussetzungen für eine gute Akzeptanz bei deren Einführung in einem Markt sind, der unter starken Preisdruck steht. Durch eine Ausgliederung eines erfindungsgemäßen Verfahrens in ei nen zusätzlichen Dienst bieten sich auch Möglichkeiten für neue Anbieter, die sich in dem Bereich der Erkenner speziali sieren.

Vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens bzw. der erfindungsgemäßen Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung sind Gegenstand von Un teransprüchen.

Die vorliegende Erfindung wird im folgenden unter Bezugnahme auf die zugehörigen Zeichnungen anhand eines Ausführungsbei spiels näher erläutert.

In den Zeichnungen zeigt:

Fig. 1 eine schematische Ansicht einer Vorrichtung zum Er stellen einer Textdatei mittels Spracherkennung gemäß einer bevorzugten Ausführungsform nach der vorliegen den Erfindung und

Fig. 2 einen über der Zeitachse aufgetragenen Plan des Si gnalflusses innerhalb einer erfindungsgemäßen Vorrich tung.

In Fig. 1 ist eine schematische Ansicht einer erfindungsgemä ßen Vorrichtung zum Erstellen einer Textdatei mittels Spra cherkennung dargestellt, das nach dem erfindungsgemäßen Ver fahren arbeitet. Die einzelnen Verarbeitungseinrichtungen sind örtlich den beteiligten Geräten zugeordnet und durch funktionale Blöcke repräsentiert. Die Signalwege zwischen den Blöcken sind als Pfeile eingezeichnet.

In der Fig. 1 ist eine Vorrichtung 1 zum Erstellen einer Text datei mittels Spracherkennung als Teil eines Mobilfunksystems dargestellt, bei dem ein Teilnehmer bzw. Benutzer B mit einem Mobiltelefon 2 exemplarisch herausgegriffen worden ist. Der prinzipielle Aufbau des Mobilfunksystems ist allgemein be kannt und hier nur skizziert dargestellt, da das erfindungs gemäße Verfahren mit den nachfolgen beschriebenen Teilen der Vorrichtung 1 in der Form von Modulen dem Mobilfunksystem hinzugefügt werden. Es bleiben somit weite Teile des Mobil funksystems unberührt, so daß diese im Rahmen der Darstellung einer Ausführungsform der Erfindung nicht beschrieben werden müssen.

Der Benutzer B wählt an dem Mobiltelefon 2 über eine Taste 3 einer Tastatur 4 als Sonderfunktion das Erstellen einer Text datei mittels Spracherkennung aus. Daraufhin wird jede weite re Spracheingabe des Benutzers B von der Vorrichtung 1 als zu verarbeitende analoge Spracheingabe 5 gewertet. Dieses Signal wird an eine Einrichtung 6 zur Vorverarbeitung weitergelei tet, die die analoge Spracheingabe 5 in ein vorverarbeitetes digitales Signal 8 umformt. Das vorverarbeitete digitale Si gnal 8 stellt dabei das Ergebnis einer digitalen Merkmalsana lyse der analogen Spracheingabe 5 dar, die in einem zeitli chen Abstand von ca. 10 ms in der Form von Merkmalsvektoren von der Einrichtung 6 zur Vorverarbeitung erzeugt wird.

Nach der Vorverarbeitung der Spracheingabe wird das vorverar beitete digitale Signal 8 über Sendeeinrichtungen 10 über ei nen digitalen Übertragungskanal 12 bspw. nach dem GMS- Standard oder dem zukünftigen UTMS-Standard zu Empfangsein richtungen 13 an einen Rechnerknoten 14 übertragen. Durch die Vorverarbeitung ist aus der sehr störanfälligen analogen Spracheingabe 5 als vorverarbeitetes Signal 8 ein digitales Signal erzeugt worden, das wesentlich robuster gegen Störun gen der Umgebung und/oder innerhalb der Vorrichtung 1 ist. Dazu ist durch die Übertragung von digitalen Merkmalsvektoren als Inhalt des vorverarbeiteten Signals 8 die zu übertragende Datenmenge gegenüber der bei Übertragung eines gegen Fehler geschützten reinen Digitalsignals wesentlich reduziert. Diese Reduzierung beträgt beispielsweise 160 kBit/s auf ca. 8 bis 16 kBit/s nach der Vorverarbeitung durch eine Sprachanalyse mit Ausgabe nur von Merkmalsvektoren. Für eine mögliche Zwi schenspeicherung wird somit auch nur ein relativ kleiner Speicher 15 in dem Mobiltelefon benötigt, was neben einer weiteren Kosteneinsparung auf der Hardware-Seite auch eine Senkung des Energiebedarfs bei einem derartigen Mobiltelefon 2 bewirkt.

Von den Empfangseinrichtungen 13 wird das vorverarbeitete Si gnal 8 in dem Rechnerknoten 14 einem Erkenner 16 zugeführt, der die eigentliche Spracherkennung durchführt. Als Erkenner 16 ist ein Hidden Markow Modell-Erkenner, (HMM)-Erkenner, vorgesehen. Es kann jedoch entsprechend der zu erwartenden Fortschritte auch ein auf neuronalen Netzen basierender Er kenner an dieser Stelle eingesetzt werden. Vorzugsweise wer den sprecherunabhängige continous speech Erkenner in dem Rechnerknoten 14 eingesetzt, der in einer verteilten Cli ent/Server-Struktur als Server dient. Der Rechnerknoten 14 ist dabei vorzugsweise zur parallelen Verarbeitung der vor verarbeiteten Spracheingaben mehrerer Benutzer ausgelegt, wo bei in den Abbildungen der Fig. 1 und 2 der Einfachheit halber nur je ein Benutzer B dargestellt ist.

Der Einsatz sprecherunabhängiger continous speech Erkenner wird in dem Rechnerknoten 14 zwar bevorzugt, es sind jedoch auch einfachere Lösungen denkbar. Da beispielsweise jeder Mo biltelefon-Benutzer anhand seiner PIN etc. als Teilnehmer schon für die Abrechnung des Netzbetreibers stets eindeutig identifiziert sein muß ist auch eine Reduzierung der vorste henden Anforderungen an den Erkenner 16 hin auf einen benut zerabhängigen und trainierbaren Erkenner möglich. Dieses ein fachere System arbeitet nach einer Trainingsphase auch mit guten Ergebnissen. Es kann über die gesamte Dauer des Einsat zes dazu lernen.

Der zeitliche Ablauf der Signalverarbeitung ist in Fig. 2 dargestellt. Hieraus geht hervor, daß die eigentliche Spra cherkennung im Rechnerknoten 14 durchgeführt wird. Nur eine Vorverarbeitung mit Fehlersicherung und Datenreduzierung ist platz- und energiesparend in dem Mobiltelefon 2 selber unter gebracht. Störungen auf dem Übertragungskanal können die Spracherkennung nicht negativ beeinflussen, da die Vorverar beitung bereits vor der Übertragung in dem Mobiltelefon 2 stattfindet. So muß die Erkennungsleistung nicht vollständig in dem Mobiltelefon 2 eingebaut sein, was die Hardware-Kosten für das Mobiltelefon 2 gering hält.

Am Ausgang des Erkenners 16 liegt als Ergebnis ein digitaler Text 18 vor, der über eine Sendeeinrichtung 19 am Knoten rechner auf einem digitalen Übertragungskanal 20 zu einer Empfangseinrichtung 21 an dem Mobiltelefon 2 zurück übersen det wird.

Der erkannte digitale Text 18 kann als von dem Benutzer B kontrolliertes Ausgangssignal 22 nun in Form einer SMS oder einer EMail versendet werden. Dem Benutzer B steht in dem Mo biltelefon 2 ein Editor 23 für eine Anzeige auf einem Display 24 zur Verfügung, siehe Fig. 1. Eine Korrektur ist durch den Benutzer B in gewohnter Weise über die Tastatur 4 des Mobil telefons 2 möglich. Weiter kann der digitale Text 18 in einem RAM-Speicher 25 in dem Mobiltelefon 2 abgespeichert werden, so daß eine Kontrolle mit anschließendem Versand zeitlich von der Rücksendung des erkannten digitalen Texts 18 getrennt werden kann. Diese Speicher 25 kann jedoch auch hin zum Pro vider bzw. Netzbetreiber ausgelagert werden und in dem Rech nerknoten 14 vorgehalten werden, wie dies beispielsweise bei EMail-Providern üblich ist. Dann wird dem Benutzer B auf dem Display 24 beispielsweise nur über ein Symbol die Bereitstel lung des erkannten digitalen Texts 18 zur Abholung angezeigt.

Dieser Text 18 ist über ein Diktat durch die beschriebene Vorrichtung 1 sehr bequem eingegeben worden. Dabei ist trotz der Hin- und Rücksendung zwischen Mobiltelefon 2 und Knoten rechner 16 der abzuwickelnde Datenverkehr trotzdem insgesamt relativ gering.

Durch eine vorstehend beschriebene Vorrichtung kann eine neue Funktion in einem attraktiven Preis/Leistungsverhältnis im Markt etabliert werden. Bei entsprechend anhaltender Lei stungsentwicklung im Bereich der Hardware und Software wird diese Funktion in näherer Zukunft eventuell auch in einem Mo biltelefon selber untergebracht werden können.

Claims

1. Verfahren zum Erstellen einer Textdatei mittels Spra cherkennung, bei dem

- eine Spracheingabe in ein Endgerät als Front-end
- mit digitaler Vorverarbeitung erfolgt und
- das vorverarbeitete Signal an einen Server versendet wird,
- in dem die Spracherkennung in einem Erkenner vorgenommen wird,

dadurch gekennzeichnet, daß

- die Spracheingabe in ein Mobiltelefon (2) erfolgt,
- in dem eine Vorverarbeitung der Spracheingabe (5) in Form einer Analyse des Sprachsignals mit digitaler Ausgabe ins besondere von Merkmalsvektoren vorgenommen wird,
- das vorverarbeitete Signal (8) über das Mobiltelefon (2) an einen Rechnerknoten (14) als Server versendet wird, bei spielsweise einen Switch eines Netzbetreibers,
- in dem Rechnerknoten (14) einer Spracherkennung mit einem Erkenner (16) unterzogen wird und
- die Ausgabe des Erkenners (16) als digitaler Text (18) an das Mobiltelefon (2) zurückgesendet wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der digitale Text (18) an dem Mobiltelefon (2) editiert wird, beispielsweise zum Zweck einer Kontrolle, Korrektur oder Erweiterung.

3. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß das Editieren mit einer Korrektur oder Erweiterung des digitalen Texts (18) durch eine Eingabe an einer Tastatur (4) an dem Mobiltelefon (2) erfolgt.

4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß bei der Analyse der Spracheingabe (5) Merkmale in Zeitab ständen von ungefähr 10 ms in der Form von Merkmalsvektoren ermittelt werden.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Erkenner (16) als HMM-Erkenner sprecherunabhängig ar beitet.

6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Erkenner (16) in einem Continous-speech Verfahren ar beitet.

7. Verfahren nach einem der Ansprüche 1-4, dadurch gekennzeichnet, daß der Erkenner (16) mit registrierten Benutzern arbeitet und die Möglichkeit des Trainings und des weiteren Lernen bietet.

8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der digitale Text (18) als Ausgabe des Erkenners (16) an das Mobiltelefon (2) und nach der Editiermöglichkeit durch den Benutzer (B) über eine standardisierten Dienst versendet wird, insbesondere über SMS versendet wird.

9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Austausch von Daten zwischen dem Mobiltelefon (2) und dem Rechnerknoten (14) über digitale Übertragungskanäle (12, 20) nach dem GMS- oder UTMS-Standard vorgenommen wird.

10. Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung, insbesondere zum Ausführen eines Verfahrens nach den Ansprüchen 1 bis 9, mit einem Front-end zur Vorver arbeitung eines Sprachsignals in einem Endgerät, einer digi talen Sende- und Empfangseinrichtung in dem Endgerät und ei nem Rechnerknoten, wobei in dem Rechnerknoten ein Erkenner vorgesehen ist, dadurch gekennzeichnet,

- daß als Endgerät zur Spracheingabe ein Mobiltelefon (2) vorgesehen ist,
- das Mobiltelefon (2) für eine Einrichtung (6) zur Vorverar beitung der Spracheingabe (5) in Form einer Sprachanalyse mit der Ausgabe digitaler Merkmalsvektoren ausgebildet ist,
- Einrichtungen (6) zur Übersendung des vorverarbeiteten Si gnals (8) über das Mobiltelefon (2) an einen Rechnerknoten (14), insbesondere einen Switch eines Netzbetreibers, vor gesehen sind,
- der Rechnerknoten (14) einen Spracherkenner (16) zur Verar beitung des vorverarbeiteten Signal (8) aufweist und
- in dem Rechnerknoten (14) eine Einrichtung (19) zur Rück sendung einer Ausgabe des Erkenners (16) als digitaler Text (18) an das Mobiltelefon (2) vorhanden ist.

11. Vorrichtung nach Anspruch 10, dadurch gekennzeichnet, daß als Übertragungsstrecke zwischen dem Mobiltelefon (2) und dem Rechnerknoten (14) ein digitaler Übertragungskanal (12, 20) nach dem GMS- oder UTMS-Standard vorgesehen ist.

12. Vorrichtung nach einem der Ansprüche 10-11, dadurch gekennzeichnet, daß Spracherkenner (16) ein HMM-Erkenner oder ein auf neuro nalen Netzen basierender Spracherkenner ist.

13. Vorrichtung nach einem der Ansprüche 10-12, dadurch gekennzeichnet, daß in dem Rechnerknoten (14) eine Einrichtung zur Registrie rung eines jeweiligen Benutzers vorgesehen ist.

14. Vorrichtung nach einem der Ansprüche 10-13, dadurch gekennzeichnet, daß in dem Mobiltelefon (2) ein Speicher für eine Einrichtung zur Vorverarbeitung der zu verarbeitenden Spracheingaben (5) vorgesehen ist.

15. Vorrichtung nach einem der Ansprüche 10-14, dadurch gekennzeichnet, daß in dem Mobiltelefon (2) ein Speicher (25) für einen vom dem Rechnerknoten (14) zurück empfangenen digitalen Text (18) vorgesehen ist.