DE10337822A1 - Sprachunterstützte Texteingabe bei vorinstallierten Anwendungen auf mobilen Geräten - Google Patents

Sprachunterstützte Texteingabe bei vorinstallierten Anwendungen auf mobilen Geräten Download PDF

Info

Publication number
DE10337822A1
DE10337822A1 DE2003137822 DE10337822A DE10337822A1 DE 10337822 A1 DE10337822 A1 DE 10337822A1 DE 2003137822 DE2003137822 DE 2003137822 DE 10337822 A DE10337822 A DE 10337822A DE 10337822 A1 DE10337822 A1 DE 10337822A1
Authority
DE
Germany
Prior art keywords
voice
application
units
input
operating system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE2003137822
Other languages
English (en)
Inventor
Steffen Harengel
Andreas Ralph Major
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE2003137822 priority Critical patent/DE10337822A1/de
Publication of DE10337822A1 publication Critical patent/DE10337822A1/de
Priority to PCT/EP2004/051753 priority patent/WO2005020211A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Durch eine zwischengeschaltete Spracherkennungsanwendung können in beliebige, auf einem Betriebssystem laufende Anwendungen, Texteinheiten eingegeben werden, indem sie diesen Anwendungen vom Betriebssystem als Nachrichten übermittelt werden.

Description

  • Bisher können vorinstallierte Programme in mobilen Geräten nur anhand der enthaltenen Eingabegeräte bedient werden, was anhand der gegebenen Möglichkeiten zumeist umständlich, langwierig und nur in ruhendem Zustand des Bedieners möglich ist. Als Eingabegeräte fungieren dabei beispielsweise virtuelle Tastaturen oder Miniaturtasten.
  • Bei mobilen Telefonen existiert zur Texteingabe in der Regel nur ein Ziffernblock, durch den unter mehrmaligem Drücken der Tasten ein entsprechender Buchstabe eingegeben und auf dem Display dargestellt wird.
  • Bei Personal Digital Assistants (PDAs) gibt es oft zwei unterschiedliche Eingabemöglichkeiten. Einerseits die Stifteingabe über eine virtuelle Tastatur, welche im Display eingeblendet wird, oder die Handschrifterkennung, welche meistens als alternative Eingabe für die virtuelle Tastatur verwendet wird. Bei etwas größeren Geräten findet teilweise auch eine miniaturisierte Hardwaretastatur Anwendung. Welches Eingabeverfahren verwendet wird, entscheidet der Hersteller des Gerätes. Die hier beschriebenen Eingabemöglichkeiten sind in den am Markt erhältlichen PDAs integriert.
  • Bei Web-Pads/SIM-Pads existiert ebenfalls nur eine virtuelle Tastatur und eine Handschrifterkennung. Diese Geräte unterscheiden sich von den PDAs nur dadurch, dass ihr Bildschirm und/oder Touchscreen um einiges größer ist.
  • Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, eine Möglichkeit zur Eingabe, insbesondere von Text, in auf kleinen mobilen Endgeräten vorinstallierte Anwendungen anzugeben.
  • Diese Aufgabe wird durch die in den unabhängigen Patentansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.
  • Dementsprechend befindet sich in einem Verfahren zur Spracherkennung eine Anwendung, die auf einem Betriebssystem abläuft, in einem Zustand, in dem ihr vom Betriebssystem Texteinheiten zuführbar sind. Es wird ein Sprachsignal eingegeben und von einer Spracherkennungseinheit in Texteinheiten umgewandelt. Die Texteinheiten werden dem Betriebssystem übergeben. Danach werden die Texteinheiten vom Betriebssystem der Anwendung zugeführt.
  • Vorzugsweise ist das Betriebssystem ein nachrichtenbasiertes Betriebssystem und die Texteinheiten werden der Anwendung als Nachricht zugeführt.
  • Die Texteinheiten enthalten beispielsweise Buchstaben.
  • Zusätzlich zu den Texteinheiten können Kommandos als Sprachsignal eingegeben, von der Spracherkennungseinheit erkannt und der Anwendung zugeführt werden. Dadurch lässt sich die Anwendung weiterhin steuern.
  • Das Verfahren läuft insbesondere auf einem mobilen Endgerät mit einer oder mehreren vorinstallierten Anwendungen ab.
  • Eine Anordnung, die eingerichtet ist, eines der geschilderten Verfahren auszuführen, lässt sich zum Beispiel durch Programmieren und Einrichten einer Datenverarbeitungsanlage mit zu den genannten Verfahrensschritten gehörigen Mitteln realisieren.
  • Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden hierzu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.
  • Weitere Vorteile und Merkmale der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Figur, die ein Verfahren zur Spracherkennung anhand eines Ablaufdiagramms darstellt.
  • Um das dem Verfahren grundlegende Problem darzustellen, folgt als erstes ein Ausführungsbeispiel. Im Beispiel erfolgt die Bedienung eines herkömmlichen PDAs unter dem Betriebssystem Windows CE. Heutzutage ist es möglich, Programme auf dem PDA durch ein vorgegebenes Vokabular anhand automatischer Spracherkennung zu starten. Im Beispiel wird auf diese Weise das Programm "Kontakte-Neueintrag" gestartet, um zur Eingabemaske eines neuen Kontaktes zu gelangen. Der Cursor steht dann automatisch im Eingabefeld des Namens. An diesem Punkt wird deutlich, dass für die Erstellung eines Kontaktes keine wortbasierte Spracherkennung verwendet werden kann, da aufgrund des großen Wortschatzes der Ressourcen- und CPU-Verbrauch eine Realisierung auf mobilen Geräten schwierig bzw. unmöglich macht. Um dem Benutzer dennoch die Möglichkeit zur Erstellung eines individuellen Kontaktes zu ermöglichen, wird anstatt eines wortbasierten Spracherkenners ein Buchstabier-Erkenner verwendet, welcher zusätzlich mit einigen Sprachkommandowörtern ergänzt wurde. Nun werden die vom Benutzer einzutragenden Namen/Worte buchstabiert. Nachdem die Erkennung abgeschlossen ist, kann der Fensterfocus vom bisherigen Eingabefeld zum nachfolgenden per Sprachkommando, beispielsweise "next", verschoben werden. Dieser Vorgang wiederholt sich nun für alle Eingabefelder. Nachdem vom Benutzer alle gewünschten Daten eingegeben wurden, kann der neue Datensatz beispielsweise durch das Kommando "save" der Datenbank des Geräts hinzugefügt werden.
  • Um dieses Verfahren auf einem Endgerät, welches ein nachrichtengesteuertes Betriebssystem wie etwa Windows, Unix, Windows CE, Epoc besitz, zu realisieren, ist lediglich eine zusätzliche, speziell ausgeprägte Spracherkennungsanwendung erforderlich. Diese Spracherkennungsanwendung läuft im Hintergrund, steuert den Spracherkenner und sendet die erkannten Buchstaben per Betriebssystem spezifischen Nachrichten zum aktiven Fensterfocus der Vordergrund-Anwendung. Dabei ist kein Wissen über die Vordergrund-Anwendung erforderlich. Dadurch ist dieses Verfahren für beliebige Anwendungen anwendbar, welche mit Texteingabe arbeiten.
  • Das hier beschriebene Verfahren nutzt also die bestehenden Kommunikationsschnittstellen der Programme mit dem Betriebssystem auf dem Gerät aus.
  • Als nächstes wird ein Verfahren zur Spracherkennung beschrieben. Um die folgende Beschreibung besser mit der Figur vergleichen zu können, sind die einzelnen Schritte mit Bezugszeichen versehen.
  • Schritt 1: Es wird die im Betriebssystem derzeit aktivierte Anwendung abgefragt. Am Beispiel Windows ist der Rückgabewert ein Fensterhandle. Als nächstes wird in
  • Schritt 2: Wird abgefragt, welches Fenster der aktiven Anwendung den Eingabefocus (Cursor) besitzt. Wiederum am Beispiel Windows kann dies mit GetFocus durchgeführt werden. Hierbei ist der Rückgabewert das Handle auf das Fenster, welches den Eingabecursor beinhaltet.
  • Schritt 3: Nun sind alle Vorarbeiten geleistet und die Anwendung befindet sich im Idle-Modus. In diesem Modus wird überwacht, ob sich das aktive Fenster oder das Fenster mit dem Eingabefocus ändert. Durch den Druck der PTT (Push to Talk)-Taste wird der Spracherkenner gestartet.
  • Schritt 4: In diesem Schritt wird der automatische Spracherkenner wieder gestoppt, da ein gültiges Erkennungsresultat vorliegt. Es können einzelne Buchstaben und Kommandos erkannt werden. Handelt es sich um eine Fehlerkennung, wird zum Schritt 3 zurückgesprungen.
  • Schritt 5: Wird ein Buchstabe erkannt, wird der korrespondierende KeyCode wie bei den Tastaturcodes einer gebräuchlichen Tastatur an das Fenster mit dem Eingabefocus gesendet. Am Beispiel Windows funktioniert dies beispielsweise mit SendMessage.
  • Schritt 6: Dadurch wird das erkannte Kommando in das Feld mit dem Focus eingetragen.
  • Schritt 7: Wird innerhalb von Schritt 4 ein Kommando erkannt, wird dieses interpretiert und der entsprechende KeyCode an die aktive Anwendung geschickt.
  • Schritt 8: Hier wurde das Kommando "next" erkannt, welches den Fensterfocus zum nächsten Eingabefeld schiebt. Am Beispiel Windows kann dies durch das Senden des Tabulator-Tasten-KeyCodes erzielt werden.
  • Schritt 9: Löschen des Inhalts des aktiven Feldes mit dem Kommando "empty". In Windows kann dies mit dem Senden des KeyCodes für Backspace erreicht werden, bis das Feld leer ist.
  • Schritt 10: Das Kommando "back" wird wie unter Schritt 9 beschrieben durchgeführt. Es wird aber lediglich einmal der KeyCode für Backspace gesendet.
  • Schritt 11: Durch das erkannte Kommando Speichern "save", was am Beispiel Windows CE durch Senden des Okay-Codes "Enter" durchgeführt wird, werden die eingetragenen Daten in die Datenbank eingetragen.
  • Unter Schritt 8 kann neben "next" auch "previous" erkannt werden, um zum vorherigen Eingabefeld zu gelangen (KeyCode Shift + Tabulator).
  • Das Verfahren wurde anhand reiner Spracherkennung vorgestellt. Allerdings kann dieses Texteingabeverfahren auch mit anderen internen oder externen Eingabegeräten bzw. bei der Kombination von verschiedenen Eingabegeräten zum Einsatz kommen. Eine interessante Lösung für die Übertragung von Text in das mobile Gerät wäre die Verwendung eines Scanner-Stifts kombiniert mit der Spracherkennung. Mittels Scanner-Stift wird der Text übertragen und per Sprachkommandos werden die zusätzlichen Steueranweisungen gegeben, beispielsweise "next" für nächstes Feld, "save" für Abspeichern etc.
  • Den vorgestellten Verfahren sind folgende Vorteile gemein:
    • – Sie funktionieren bei allen nachrichtengesteuerten Betriebssystemen (Windows, Unix, Windows CE, Symbian OS etc.),
    • – sie ermöglichen eine schnelle und natürliche Texteingabe gegenüber herkömmlichen Eingabemöglichkeiten,
    • – es können sämtliche Textfelder einer Anwendung via Sprache oder anderem Eingabegerät vom Benutzer ausgeführt werden,
    • – durch das Buchstabieren können alle erdenklichen Worte erstellt werden,
    • – durch andere Eingabegeräte kann Text 1 : 1 übernommen werden,
    • – das Verfahren kann im dynamischen Zustand, also während der Fortbewegung des Benutzers, bedient werden,
    • – eine einfache Bedienung ist auch für körperlich Behinderte möglich.
  • Der Nachweis einer Verwendung des Verfahrens ist sehr einfach. Es muss lediglich ausprobiert werden, ob ein eigenhändig erstelltes Programm nach der Installation per Sprache bearbeitet werden kann.

Claims (7)

  1. Verfahren zur Spracherkennung für eine Anwendung, die auf einem Betriebssystem abläuft, bei dem – die Anwendung in einem Zustand ist, in dem ihr vom Betriebssystem Texteinheiten zuführbar sind, – ein Sprachsignal eingegeben und von einem Spracherkenner in Texteinheiten umgewandelt wird, – die Texteinheiten dem Betriebssystem übergeben werden, – die Texteinheiten vom Betriebssystem der Anwendung zugeführt werden.
  2. Verfahren nach Anspruch 1, bei dem das Betriebssystem ein nachrichtenbasiertes Betriebssystem ist und die Texteinheiten der Anwendung als Nachrichten zugeführt werden.
  3. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Texteinheiten Buchstaben sind.
  4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem zusätzlich zu den Texteinheiten Kommandos eingegeben, erkannt und der Anwendung zugeführt werden.
  5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Verfahren auf einem mobilen Endgerät abläuft.
  6. Anordnung, die eingerichtet ist, ein Verfahren nach einem der vorhergehenden Ansprüche auszuführen.
  7. Programmprodukt, das, wenn es auf einer Datenverarbeitungsanlage geladen und darauf ausgeführt wird, ein Verfahren nach einem der Ansprüche 1 bis 5 oder einer Vorrichtung nach Anspruch 6 in Kraft setzt.
DE2003137822 2003-08-18 2003-08-18 Sprachunterstützte Texteingabe bei vorinstallierten Anwendungen auf mobilen Geräten Withdrawn DE10337822A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE2003137822 DE10337822A1 (de) 2003-08-18 2003-08-18 Sprachunterstützte Texteingabe bei vorinstallierten Anwendungen auf mobilen Geräten
PCT/EP2004/051753 WO2005020211A1 (de) 2003-08-18 2004-08-09 Sprachunterstützte texteingabe bei vorinstallierten anwendungen auf mobilen geräten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2003137822 DE10337822A1 (de) 2003-08-18 2003-08-18 Sprachunterstützte Texteingabe bei vorinstallierten Anwendungen auf mobilen Geräten

Publications (1)

Publication Number Publication Date
DE10337822A1 true DE10337822A1 (de) 2004-03-25

Family

ID=31896395

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2003137822 Withdrawn DE10337822A1 (de) 2003-08-18 2003-08-18 Sprachunterstützte Texteingabe bei vorinstallierten Anwendungen auf mobilen Geräten

Country Status (2)

Country Link
DE (1) DE10337822A1 (de)
WO (1) WO2005020211A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2507723A1 (de) * 2009-12-04 2012-10-10 Intellisist, Inc. Umwandlung einer nachricht mit einem posting-wandler

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113630464B (zh) * 2021-08-10 2022-08-02 中国电信股份有限公司 分布式语音处理方法、系统、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5873064A (en) * 1996-11-08 1999-02-16 International Business Machines Corporation Multi-action voice macro method
US5893064A (en) * 1997-05-14 1999-04-06 K2 Interactive Llc Speech recognition method and apparatus with voice commands and associated keystrokes
US6401065B1 (en) * 1999-06-17 2002-06-04 International Business Machines Corporation Intelligent keyboard interface with use of human language processing
GB2365188B (en) * 2000-07-20 2004-10-20 Canon Kk Method for entering characters

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2507723A1 (de) * 2009-12-04 2012-10-10 Intellisist, Inc. Umwandlung einer nachricht mit einem posting-wandler
US9116884B2 (en) 2009-12-04 2015-08-25 Intellisist, Inc. System and method for converting a message via a posting converter

Also Published As

Publication number Publication date
WO2005020211A1 (de) 2005-03-03

Similar Documents

Publication Publication Date Title
DE10235548B4 (de) Verfahren und Vorrichtung für die Prädiktion einer Textnachrichteneingabe
DE69819690T2 (de) Spracherkennungsvorrichtung unter verwendung eines befehlslexikons
DE19905076C2 (de) Sprachsteuerungsmodul
DE69817844T2 (de) Verfahren und vorrichtung zur spracherkennungscomputereingabe
DE69722652T2 (de) System und verfahren zum ferngruppieren des inhalts eines historischen kellerspeichers
DE102005061365A1 (de) Verfahren zur Ansteuerung zumindest einer ersten und zweiten Hintergrundapplikation über ein universelles Sprachdialogsystem
DE102016125141B4 (de) Suchergebnis unter vorherigem Abrufen von Sprachanfragen
EP3095114B1 (de) Verfahren und system zur erzeugung eines steuerungsbefehls
DE102015218963A1 (de) Steuerverfahren, Steuervorrichtung und elektronische Vorrichtung
DE20320853U1 (de) Vorrichtung zur Implementierung von Hot-Key-Funktionen
DE2818370A1 (de) Programmierbarer elektronischer rechner mit synthetisch erzeugter sprachanzeige
DE69333762T2 (de) Spracherkennungssystem
DE10337822A1 (de) Sprachunterstützte Texteingabe bei vorinstallierten Anwendungen auf mobilen Geräten
DE19849855C1 (de) Verfahren zur automatischen Generierung einer textlichen Äußerung aus einer Bedeutungsrepräsentation durch ein Computersystem
EP1376322A1 (de) Verfahren und multimodale Benutzer-Schnittstelle zum Verarbeiten von Benutzereingaben
DE102015212650B4 (de) Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe
DE19648721A1 (de) Verfahren zum Erweitern von Hot-Key-Funktionen einer Tastatur
EP2343643A1 (de) Verfahren und Software-Komponente für eine Rückgängig-Funktion mit einer graphischen Benutzeroberfläche
DE112018001230T5 (de) Elektronisches Musikinstrument
WO2020126217A1 (de) Verfahren, anordnung und verwendung zum erzeugen einer antwortausgabe in reaktion auf eine spracheingabeinformation
WO2001056016A1 (de) System und verfahren zur sprachverarbeitung
DE2941824A1 (de) Programmeingabesystem
EP1466318B1 (de) Spracherkenner und betriebsverfahren für einen solchen
DE3438333A1 (de) Sprachempfindliche vorrichtung
EP1959430A2 (de) Verfahren zur automatischen Generierung von VoiceXML-sprachapplicationen aus Sprachdialogmodellen

Legal Events

Date Code Title Description
OAV Applicant agreed to the publication of the unexamined application as to paragraph 31 lit. 2 z1
8139 Disposal/non-payment of the annual fee