DE102013002962A1 - Sprachunterstützte Tastatureingabe - Google Patents

Sprachunterstützte Tastatureingabe Download PDF

Info

Publication number
DE102013002962A1
DE102013002962A1 DE102013002962A DE102013002962A DE102013002962A1 DE 102013002962 A1 DE102013002962 A1 DE 102013002962A1 DE 102013002962 A DE102013002962 A DE 102013002962A DE 102013002962 A DE102013002962 A DE 102013002962A DE 102013002962 A1 DE102013002962 A1 DE 102013002962A1
Authority
DE
Germany
Prior art keywords
key
keyboard
character
alphanumeric
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102013002962A
Other languages
English (en)
Inventor
Henry P. Largey
Gabriel Rivera
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nvidia Corp
Original Assignee
Nvidia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nvidia Corp filed Critical Nvidia Corp
Publication of DE102013002962A1 publication Critical patent/DE102013002962A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0236Character input methods using selection techniques to select from displayed items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/70Details of telephonic subscriber devices methods for entering alphabetical characters, e.g. multi-tap or dictionary disambiguation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10TTECHNICAL SUBJECTS COVERED BY FORMER US CLASSIFICATION
    • Y10T29/00Metal working
    • Y10T29/49Method of mechanical manufacture
    • Y10T29/49002Electrical device making
    • Y10T29/49105Switch making

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Eine elektronische Einrichtung ist ausgebildet, Daten von einer Taste einer Tastatur zu empfangen, wobei die Taste mit einem ersten und einem zweiten alphanumerischen Zeichen verknüpft ist. Die Einrichtung umfasst eine Tastaturschnittstelle und einen Dateneingabeprozessor. Die Tastaturschnittstelle ist ausgebildet, das erste und das zweite alphanumerische Zeichen zu ermitteln, wenn die Taste gedrückt ist. Der Dateneingabeprozessor ist ausgebildet, das erste alphanumerische Zeichen aus dem ersten und dem zweiten alphanumerischen Zeichen auszuwählen, wenn eine Spracherkennungseinheit bestimmt, dass eine gesprochene Eingabe das erste alphanumerische Zeichen angibt.

Description

  • Technisches Gebiet
  • Diese Anmeldung betrifft im Allgemeinen Geräte, Systeme und Verfahren zum Steuern des Betriebs elektronischer Geräte.
  • Hintergrund
  • Diverse elektronische Geräte enthalten ein Tastenfeld bzw. eine Tastatur für die Dateneingabe. Die Tastatur kann für verschiedene Zwecke eingesetzt werden, etwa für die Telefonanwahl, um ein einzelnes alphanumerisches Zeichen, beispielsweise eine Ziffer, die jeder Taste zugeordnet ist, einzugeben. In einem anderen Zusammenhang können die Tasten zwei oder mehr alphanumerischen Zeichen zugeordnet sein. Beispielsweise ist auf der üblichen Telefontastatur die Taste für die „Zahl 2” mit „A”, „B”, „C” und „2” verknüpft. Durch eine Tastenmodifiziereinrichtung kann die Taste auch mit „a”, „b” und „c” verknüpft werden. Die Dateneingabe umfasst manchmal, dass zunächst die interessierende Taste gedrückt wird und anschließend diese ein oder mehrere Male gedrückt wird, um das gewünschte alphanumerische Zeichen auszuwählen. Eine derartige Dateneingabe ist für einige Anwender derartiger Geräte aufwendig und unzuverlässig.
  • Überblick
  • Eine Ausführungsform stellt eine elektronische Einrichtung bereit, die ausgebildet ist, Daten von einer Tastaturtaste zu empfangen, wobei die Taste einem ersten und einem zweiten alphanumerischen Zeichen zugeordnet ist. Die Einrichtung umfasst eine Tastaturschnittstelle und einen Dateneingabeprozessor. Die Tastaturschnittstelle ist ausgebildet, das erste und das zweite alphanumerische Zeichen zu bestimmen bzw. ermitteln, wenn die Taste gedrückt ist. Der Dateneingabeprozessor ist ausgebildet, das erste alphanumerische Zeichen aus dem ersten und dem zweiten alphanumerischen Zeichen auszuwählen, wenn eine Spracherkennungseinheit bestimmt, dass eine gesprochene Eingabe das erste alphanumerische Zeichen bezeichnet.
  • Eine weitere Ausführungsform stellt ein System zum Eingeben von Daten in eine elektronische Einrichtung bereit. Das System umfasst einen Empfänger, eine Datenunterscheidungseinheit, eine Spracherkennungseinheit und einen Zeichensender. Der Empfänger ist ausgebildet, Tastatureingabedaten aus der elektronischen Einrichtung zu empfangen. Die Datenunterscheidungseinheit ist ausgebildet, eine gedrückte Taste aus zumindest einer ersten Taste und einer zweiten Taste der Tastatur zu bestimmen. Die Spracherkennungseinheit ist ausgebildet, eine gesprochene Eingabe zu empfangen, die einem ersten oder einem zweiten alphanumerischen Zeichen entspricht, die der gedrückten Taste zugeordnet sind. Der Zeichensender ist ausgebildet, an die elektronische Einrichtung ein Signal zu senden, das angibt, ob das erste oder das zweite alphanumerische Zeichen durch die gesprochene Eingabe bezeichnet ist.
  • Eine noch weitere Ausführungsform stellt ein Verfahren bereit, beispielsweise zur Bildung einer durch Tastatur betriebenen elektronischen Einrichtung. Das Verfahren umfasst das Konfigurieren einer Tastaturschnittstelle derart, dass diese bestimmt, dass eine Tastaturtaste gedrückt worden ist. Es ist eine Spracherkennungseinheit vorgesehen, die ausgebildet ist, eine gesprochene Eingabe zu verarbeiten, die ein gesprochenes Äquivalent eines ersten alphanumerischen Zeichens, das mit der Taste verknüpft ist, enthält. Ein Dateneingabeprozessor ist mit der Spracherkennungseinheit gekoppelt. Der Dateneingabeprozessor ist ausgebildet, das erste alphanumerische Zeichen aus mehreren alphanumerischen Zeichen, die der Taste zugeordnet sind, auszuwählen, wenn die Spracherkennungseinheit bestimmt, dass die gesprochene Eingabe das erste alphanumerische Zeichen angibt.
  • Kurze Beschreibung
  • Es wird nun auf die folgenden Beschreibungen in Verbindung mit den begleitenden Zeichnungen verwiesen, in denen:
  • 1 und 2 entsprechend eine alphanumerische Tastatur und eine vollständige Tastatur zeigen, die in elektronischen Einrichtungen gemäß diversen Ausführungsformen eingesetzt werden können;
  • 3 eine elektronische Zeichnung gemäß einer anschaulichen Ausführungsform zeigt, in der eine gedrückte Taste und eine gesprochene Eingabe verwendet werden, um ein ausgewähltes Zeichen zu bestimmen;
  • 4 ein Verfahren zeigt, beispielsweise zum Bestimmen eines ausgewählten Zeichens, das in der elektronischen Einrichtung aus 3 eingerichtet sein kann;
  • 5 ein System zeigt, das ein elektronisches Gerät und eine entfernte Dienstleistungsanwendung bzw. einen Server zeigt, wobei die Dienstleistungsanwendung ein ausgewähltes Zeichen aus einer in der Einrichtung gedrückten Taste und einer gesprochenen Eingabe bestimmt; und
  • 6 eine anschauliche Ausführungsform eines Verfahrens zeigt, beispielsweise zur Bildung einer elektronischen Einrichtung, etwa der Einrichtung aus 3.
  • Detaillierte Beschreibung
  • Diverse hierin beschriebene Ausführungsformen stellen Einrichtungen bzw. Geräte, Systeme und Verfahren zum Verbessern der Dateneingabe in eine elektronische Einrichtung bereit, in der eine Tastatur für die Dateneingabe verwendet wird. In dem Maße, wie elektronische Handgeräte kleiner geworden sind und diese eine größere Anzahl an Eigenschaften besitzen, hat auch die Komplexität der Dateneingabe in derartige Geräte zugenommen. Zu derartigen Daten gehören gelegentlich beispielsweise Telefonnummern, Email-Nachrichten, Textnachrichtung und Adressinformationen. Die Schwierigkeit bei der Eingabe derartiger Daten vergrößert die Zeit, die zum genauen Eingeben der Daten erforderlich ist, und ruft manchmal beim Anwender Frustration hervor.
  • Einige mögliche Strategien zur Verringerung des Aufwands bei der Dateneingabe sind möglich, haben jedoch in der einen oder anderen Richtung Nachteile. Beispielsweise wird in einigen Funktelefonen Verfahren verwendet, in denen mehrere Tastenbetätigungen angewendet werden, etwa ein erstmaliges Drücken der interessierenden Taste und anschließend ein einmaliges oder mehrmaliges erneutes Drücken der Taste, um das gewünschte alphanumerische Zeichen auszuwählen. Dieses System ist nicht nur aufwendig sondern für Anwender mit großen Fingern schwierig oder nahezu unmöglich sein, zuverlässig eine einzelne Taste zu drücken. Theoretisch ist auch eine Spracherkennung möglich, diese erfordert jedoch typischer Weise aufwendige Algorithmen, mächtigere Verarbeitungshardware, einen größeren Speicher und eine relativ ruhige Umgebung.
  • Die Erfinder haben erkannt, dass die Dateneingabe in eine elektronische Einrichtung verbessert werden kann, indem eine Tasteneingabe mit einer zielgerichteten Spracherkennung kombiniert wird. In diversen Ausführungsformen der Erfindung wird eine Taste zuerst gedrückt. Die Taste ist einem alphanumerischen Zeichen zugeordnet und mit einem oder mehreren anderen alphanumerischen Zeichen verknüpft. Nachdem der Anwender die Taste gedrückt hat, kann der Anwender das zugeordnete oder andere verknüpfte alphanumerische Zeichen aussprechen. Die elektronische Einrichtung oder eine Dienstleistungsanwendung, die mit der Einrichtung in Verbindung steht, kann dann das gesprochene Zeichen bestimmen, wobei die Zeichensuche auf das zugeordnete und die verknüpften Zeichen beschränkt ist. Die Suche kann daher schneller und/oder mit geringerem Geräteaufwand und/oder Rechenressourcen erfolgen. Ferner wird durch das Beschränken der Zeichensuche erwartet, dass die Bestimmung des ausgewählten Zeichens deutlich robuster im Hinblick auf Hintergrundrauschen erfolgt, das ansonsten ausgesprochene Zeichen übertönen kann. Wenn das ausgewählte, beispielsweise gesprochene, Zeichen bestimmt ist, kann die Einrichtung dann das Zeichen in einem Speicher registrieren.
  • Ohne Verlust an Allgemeinheit kann hierin der Begriff „alphanumerisches Zeichen” zu „Zeichen” verkürzt sein. Das Wort „verknüpft” im Zusammenhang mit alphanumerischen Zeichen bedeutet hierin 1) Zeichen, die einer einzelnen Taste einer Tastatur zugeordnet sind, oder 2) Zeichen, die Tasten zugeordnet sind, die die unmittelbaren Nachbarn einer gedrückten Taste sind. Wie weiter unten mit Bezug zu 1 beschrieben ist, sind somit in einem Beispiel für die Telefontaste „2”, der die Zeichen „A”, „B” und „C” zugeordnet sind, die Zeichen „2”, „A”, „B” und „C” mit der „2”-Taste verknüpft. In einem weiteren Beispiel ist auf einer QWERTY-Tastatur die „G”-Taste mit den Zeichen „T”, „Y”, „H”, „B”, „V” und „F” aufgrund der Tatsache verknüpft, dass diese unmittelbare Nachbarn von „G” sind, und die Taste ist ferner mit dem Zeichen „G” verknüpft, da das Zeichen der Taste zugeordnet ist. Im Sinne der Ansprüche sind Tasten nicht etwa einfach aufgrund der Tatsache „verknüpft”, dass sie in der gleichen Tastatur oder der gleichen Einrichtung vorhanden sind, und auch nicht aufgrund der Tatsache, dass sie Mitglieder eines gleichen Zeichensatzes sind.
  • Es werden nun diverse Ausführungsformen der Offenbarung mit Bezug zu den Figuren präsentiert. Diese Figuren können diverse funktionale Module enthalten, und die Diskussion kann eine Referenz auf diese Module beinhalten und diverse Modulfunktionen und Abhängigkeiten zwischen den Modulen beschreiben. Der Fachmann erkennt, dass die Grenzen zwischen derartigen Modulen lediglich anschaulicher Natur sind und dass alternative Ausführungsformen Module zusammenfassen können oder eine alternative Aufspaltung der Funktion von Modulen berücksichtigen können. Beispielsweise können die hierin erläuterten Module in Submodule aufgeteilt werden, die als mehrere Rechenprozesse und optional auf mehreren elektronischen Einrichtungen, beispielsweise integrierten Schaltungen, auszuführen sind. Ferner können in alternativen Ausführungsformen mehrere Instanzen eines speziellen Moduls oder Submoduls kombiniert werden. Ferner erkennt der Fachmann, dass die in einer beispielhaften Ausführungsform beschriebenen Funktionen lediglich der Anschaulichkeit dienen. Vorgänge können kombiniert werden oder die Wirkung der Funktionen kann auf zusätzliche Funktionen im Rahmen der Erfindung verteilt werden.
  • Gemäß 1 ist ein nicht beschränkendes Beispiel einer alphanumerischen Tastatur 100 gezeigt, die in Verbindung mit einer elektronischen Einrichtung in diversen Ausführungsformen verwendet werden kann. Die Tastatur 100 kann beispielsweise in einem Funktelefon verwendet werden, aber die Ausführungsformen der Erfindung sind nicht darauf beschränkt. Die Tastatur 100 entspricht dem ISO/IEC 9995-9:2009-Standard für Tastaturkonfigurationen, aber Ausführungsformen der Erfindung sind nicht auf Tastaturen beschränkt, die diesem Standard genügen.
  • Jede der Tasten „2”–„9” ist mit einer Reihe von Zeichen verknüpft. Beispielsweise besitzt jede dieser Tasten ein primäres bzw. erstes zugeordnetes Zeichen, beispielsweise „2” ... ”9”. Ferner umfasst jede Taste eine Reihe von sekundären oder zweiten Zeichen. Beispielsweise sind die der „2”-Taste zugeordneten sekundären Zeichen „A”, „B” und „C”. Üblicherweise werden diese Zeichen in diverse Datenfelder durch die zuvor genannte Technik der mehrfachen Tastenbetätigungen eingegeben. In einigen Fällen können auch die Kleinbuchstabenversionen der dargestellten sekundären Zeichen unter Anwendung des Verfahrens mit mehreren Tastenbetätigungen eingegeben werden.
  • 2 zeigt ein konventionelles Tastenfeld bzw. eine konventionelle Tastatur 200, die in diversen Ausführungsformen verwendet werden kann. Die Tastatur 200 unterscheidet sich von der Tastatur 100 dadurch, dass eine einzelne Taste für jeden Buchstaben des humanistischen Alphabets vorhanden ist. Hierin und in den Ansprüchen wird eine derartige Tastatur, unabhängig von der Größe oder dem speziellen Muster der Tasten, als eine volle bzw. vollständige Tastatur bezeichnet. Die Tastatur 200 ist in der bekannten QWERTY-Konfiguration dargestellt, wobei die Ausführungsformen nicht darauf beschränkt sind. Beispielsweise beinhalten alternative Konfigurationen etwa die Dvorak-Konfiguration. Zeichen in der Tastatur 200 können in zumindest zwei Arten verknüpft sein. Erstens, wie für die Tastatur 100 beschrieben ist, kann eine Taste ein primäres zugeordnetes Zeichen, beispielsweise „6” und ein zugeordnetes sekundäres Zeichen, beispielsweise „^” besitzen. In einigen Fällen kann das sekundäre Zeichen eine verschiedene Instanz des primären Zeichens sein, beispielsweise „H” und „h”. Die Zeichen können auch durch Nähe verknüpft sein. Wie etwa oben beschrieben ist, kann die „G”-Taste verknüpft sein mit „G”, „T”, „Y”, „F”, „H”, „V” und „B”
  • 3 zeigt eine elektronische Einrichtung 300, beispielsweise ein Funktelefon. Obwohl die nachfolgende Beschreibung sich auf Ausführungsformen eines Funktelefons bezieht, sind Ausführungsformen nicht darauf beschränkt. Beispielsweise kann die Einrichtung 300 eine beliebige elektronische Einrichtung sein, die mit dem Schutzbereich der vorliegenden Offenbarung konsistent ist, wobei ein Tastenfeld oder eine Tastatur für die Dateneingabe verwendet wird. So kann die in den folgenden Ausführungsformen beschriebene Tastatur eine virtuelle (beispielsweise graphisch erzeugte) Tastatur bzw. ein Tastenfeld sein. Zu nicht beschränkenden Beispielen elektronischer Einrichtungen gehören beispielsweise Tablet-Computer (beispielsweise Android-Geräte oder Apple iPad), oder Apple iPod Touch. Derartige Geräte können hierin als „kleine Recheneinrichtungen” ohne Verlust an Allgemeinheit bezeichnet werden.
  • Die Einrichtung 300 enthält eine Tastatur bzw. ein Tastenfeld 310, beispielsweise die Tastatur 100, eine Tastaturschnittstelle 320, eine Sprache-zu-Text(STT)-Schnittstelle 330, einen Wandler 340 und einen Dateneingabeprozessor 350. Der Wandler 340 kann beispielsweise ein konventionelles Mikrophon-Element und einen Analog-Digital-Wandler (ADC) enthalten. Die Tastaturschnittstelle 320, die STT-Schnittstelle 330 und der Dateneingabeprozessor 350 können als ein Prozessor und ein Speicher ausgeführt sein, wie dies dem Fachmann auf diesem Gebiet bekannt ist. Ausführungsformen der Erfindung sind nicht auf eine spezielle Implementierung beschränkt, die ohne Beschränkung beispielsweise eine kommerzielle oder kundenspezifische integrierte Schaltung, eine Zustandsmaschine, eine speicherprogrammierbare Schaltung, eine Mikrosteuerung oder einen digitalen Signalprozessor (DSP) beinhalten kann.
  • Die Tastatur 310 ist eine Gruppe aus Zeichen, die durch geeignete Auswahl von Tasten erzeugt werden kann. Beispielsweise kann der komplette Satz a ... z, A ... Z, 0 ... 9 und einige Punktuationszeichen enthalten sein. Die Tastaturschnittstelle 320 erkennt einen Tastendruck auf der Tastatur 310. Die Tastaturschnittstelle 320 ist ausgebildet, aus der Zeichengruppe eine Untergruppe an Zeichen auszuwählen, die das primäre Zeichen x, das dem gedrückten Zeichen zugeordnet ist, sowie jegliche sekundäre Zeichen enthält. Wenn somit beispielsweise die „5”-Taste gedrückt wird, berichtet die Tastaturschnittstelle 320 die Zeichenuntergruppe {5, j, k, l, J, K, L} an die STT-Schnittstelle 330.
  • Nach dem Drücken der Taste kann dann ein Anwender der Einrichtung 300 eines der Zeichen, die mit der gedrückten Taste verknüpft sind, aussprechen. Unter Fortsetzung des vorhergehenden Beispiels kann etwa nach dem Drücken der „5”-Taste der Anwender „j” (ausgesprochen „jay”) sprechen. Die STT-Schnittstelle 330 erhält die Zeichenuntergruppe aus der Tastaturschnittstelle 320 und das gesprochene Zeichen von dem Wandler 340. Die STT-Schnittstelle 330 wendet dann einen Spracherkennungsalgorithmus an, um das gesprochene Zeichen zu bestimmen.
  • Wie der Fachmann auf diesem Gebiet erkennt, kann die Spracherkennung einen Algorithmus umfassen, der ein Rechenmodell implementiert hat, etwa das versteckte Markov-Modell (HMM). Das HMM kann einen Viterbi-Algorithmus aufweisen, der eine wahrscheinlichste Übereinstimmung zwischen einer akustischen Signatur und einem entsprechenden Wort ermitteln kann.
  • Anders als ein konventioneller Spracherkennungsalgorithmus ist der Spracherkennungsalgorithmus der STT-Schnittstelle 330 ausgebildet, ein Zeichen aus der Zeichenuntergruppe auszuwählen, die von der Tastaturschnittstelle 320 bereitgestellt ist. Somit ist nicht nur die Vielfalt möglicher Zeichen im Vergleich zum vollständigen Zeichensatz beschränkt, sondern die STT-Schnittstelle 330 muss lediglich eine kleine Anzahl an Klängen erfassen und verarbeiten. Beispielsweise sind im Englischen viele Buchstaben des Alphabets als ein langer „E”-Klang (internationales phonetisches Alphabetsymbol i:) mit einem einzigartigen führenden Konsonanten ausgesprochen. Aufgrund der Anzahl an einzigartigen Klängen, die in dem vollständigen Zeichensatz verfügbar sind, und aufgrund der weiteren Verringerung der Anzahl der Klänge durch die Zeichenuntergruppe ist die Komplexität der STT-Schnittstelle 330 deutlich geringer im Vergleich zu einem konventionell aufgebauten Spracherkennungsalgorithmus. Somit kann die STT-Schnittstelle 330 unter Anwendung deutlich reduzierter Rechenressourcen und Geräteressourcen eingerichtet werden, als dies für einen konventionellen Spracherkennungsalgorithmus möglich ist.
  • In einigen Ausführungsformen ist die STT-Schnittstelle 330 ausgebildet, zusätzlich eine kleine Anzahl an Modifizierungsschlüsselwörtern zu erkennen. Beispielweise können das Drücken der „2”-Taste und das Aussprechen von „bee” die kleingeschriebene Version von „b” durch Voreinstellung angeben. Der Anwender kann die „2”-Taste drücken und „groß Bee” aussprechen, um anzugeben, dass ein großes „B” gewünscht ist. Die STT-Schnittstelle 330 kann ausgebildet sein, das Wort „groß” zu erkennen und kann das ausgewählte Zeichen entsprechend ändern. Alternativ kann die STT-Schnittstelle 330 so voreingestellt sein, dass ein Großbuchstabe ausgewählt wird und der äquivalente Kleinbuchstabe wird nur ausgewählt, wenn der Anwender „klein” ausspricht. Daher kann eine gesprochene Eingabe in diversen Ausführungsformen ein Modifizierungsschlüsselwort und ein zu modifizierendes Zeichen enthalten. Der Fachmann erkennt, dass diese Strategie in vielen unterschiedlichen Weisen angewendet werden kann, ohne dass damit vom Schutzbereich der Erfindung abgewichen wird.
  • Der Dateneingabeprozessor 350 empfängt das ausgewählte Zeichen von der STT-Schnittstelle 330, nachdem die STT-Schnittstelle 330 das durch die Kombination aus der Tastenbetätigung und dem gesprochenen Zeichen spezifizierte Zeichen erkannt hat. Der Dateneingabeprozessor 350 ist mit anderen Bereichen der Einrichtung 300 in der notwendigen Weise verbunden, um die Zeicheneingabe zu bewirken, beispielsweise besteht eine Verbindung mit einem Datenspeicher oder einem Anzeigespeicher (nicht gezeigt).
  • 4 stellt ein Verfahren 400 dar, wobei auch auf 3 Bezug genommen wird, um die Funktionsweise der Einrichtung 300 gemäß einer nicht beschränkenden Ausführungsform darzustellen. In einem Schritt 410 fragt die Tastaturschnittstelle die Tastatur 310 ab, um zu bestimmen, ob eine Taste gedrückt worden ist. Wenn keine Taste gedrückt worden ist, bleibt das Verfahren 400 im Schritt 410. Wenn stattdessen eine Tastenbetätigung erkannt wird, geht das Verfahren 400 zu einem Schritt 420 weiter.
  • Im Schritt 420 bestimmt die Tastaturschnittstelle 320, welche Taste gedrückt ist. In einem Schritt 430 bestimmt die Tastaturschnittstelle die Zeichenuntergruppe, die mit der gedrückten Taste verknüpft ist. In einem Schritt 440 leitet die Tastaturschnittstelle die Zeichenuntergruppe an die STT 330 weiter. Die STT 330 ist ausgebildet, empfangene gesprochene Zeichen lediglich mit Zeichen aus der Zeichenuntergruppe in Übereinstimmung zu bringen.
  • In einem Schritt 450 empfängt der Wandler 340 eine gesprochene Eingabe und erzeugt eine digitale Repräsentation des empfangenen Zeichens. In einem Schritt 460 versucht die STT 330, das empfangene gesprochene Zeichen mit einem der Zeichen in der Zeichenuntergruppe, die mit der gedrückten Taste verknüpft ist, in Übereinstimmung zu bringen. Der Vorgang des in Übereinstimmungbringens kann beinhalten, dass bestimmt wird, ob die empfangene gesprochene Eingabe ein Modifzierschlüsselwort, etwa „groß” beinhaltet, wie dies zuvor beschrieben ist. Somit kann die STT 330 eine beschränkte Analyseroutine beinhalten, um die geeignete vorzunehmende Aktion beim Empfang des Modifizierschlüsselworts zu bestimmen. Wenn eine Übereinstimmung erkannt wird, die mit ausreichender Konfidenz vorhanden ist, geht das Verfahren 400 zu einem Schritt 470 weiter, von welchem aus das übereinstimmende Zeichen an den Dateneingabeprozessor 350 berichtet wird. Wenn keine Übereinstimmung ermittelt wird, kehrt das Verfahren 400 zu dem Schritt 450 zurück, um ein weiteres gesprochenes Zeichen zu empfangen. Das Verfahren 400 kann optional in einem nicht gezeigten Schritt einen Zähler beinhalten, um zu bestimmen, ob eine Anzahl an Übereinstimmungsversuchen ein vorbestimmtes Maximum übersteigt. Wenn dies der Fall ist, kann das Verfahren 400 zu dem Schritt 410 zurückkehren, um die Zeichenerkennungsprozedur erneut zu starten.
  • 5 zeigt eine Ausführungsform eines Systems 500, in welchem die Bestimmung des spezifizierten Zeichens durch eine entfernte Dienstleistungsanwendung ausgeführt wird. Das System 500 umfasst ein elektronisches Gerät bzw. eine Einrichtung 510, beispielsweise ein Funktelefon oder ein kleines Rechnergerät, und einen Server bzw. eine Dienstleistungsanwendung bzw. Dienstleister 520. Der Dienstleister 520 kann mit dem Gerät 510 beispielsweise durch eine kabellose Verbindung 525, die auf UMTS, CDMA oder GMS-Standards beruht, verbunden sein. Alternativ können das Gerät 510 und der Dienstleister 520 über eine Wi-Fi-Verbindung (beispielsweise 802.11 in einem ihrer diversen Revisionen) mit dem Internet verbunden sein.
  • Das Gerät 510 kann diverse Merkmale aufweisen, wie sie auch im Zusammenhang mit der Einrichtung 300 beschrieben sind, beispielsweise können eine Tastatur, ein Prozessor und ein Speicher (nicht gezeigt) vorgesehen sein. Das Gerät 510 umfasst ferner einen Sender 515, der ausgebildet ist, mit dem Dienstleister 520 über die Verbindung 525 zu kommunizieren.
  • Der Dienstleister 520 umfasst einen Empfänger 530, eine Zeichenunterscheidungseinheit 540, eine STT 550 und einen Sender 560. Die Unterscheidungseinheit 540 und die STT 550 können beispielsweise als eine Steuerung oder ein Mikroprozessor in Verbindung mit einem Speicher zum Speichern von Programmbefehlen und Zwischendaten eingerichtet sein.
  • Das Gerät 510 kann ausgebildet sein, die Identität einer gedrückten Taste an den Dienstleister 520 zu übertragen. Die Taste kann durch ein Verfahren erkannt werden, das konsistent ist mit der Art der Verbindung 525. Wenn beispielsweise das Gerät 510 ein Telefon ist, kann die Taste innerhalb des Sprachbandes, beispielsweise durch DTMF-Signalgebung, oder außerhalb des Bandes durch einen Steuersignalkanal erkannt werden. Andere Arten an elektronischen Geräten können beispielsweise die gedrückte Taste über eine Sequenz aus Internetdatenpaketen berichten. Der Empfänger 530 empfängt das Signal aus dem Gerät 510, wodurch die gedrückte Taste angegeben wird.
  • Der Anwender des Geräts 510 kann dann das gewünschte Zeichen, das mit der gedrückten Taste verknüpft ist, aussprechen. Das Gerät 510 überträgt das gesprochene Zeichen an den Empfänger 530 über die Verbindung 525, beispielsweise durch eine Funkverbindung oder durch das Internet. Der Empfänger 530 gibt die Identität der gedrückten Taste und des gesprochenen Zeichens an die Unterscheidungseinheit 540 weiter. Die Unterscheidungseinheit 540 arbeitet analog zu der Tastaturschnittstelle 320, so dass eine Untergruppe aus Zeichen bestimmt wird, die mit der gedrückten Taste verknüpft sein können, und diese Untergruppe wird an die STT 550 weitergegeben.
  • Die STT 550 empfängt ebenfalls den gesprochenen Befehl aus dem Empfänger 530. Die STT 550 arbeitet in analoger Weise wie die STT 330, um aus dem gesprochenen Zeichen zu ermitteln, welches der mit der gedrückten Taste verknüpften Zeichen von dem Anwender ausgewählt ist. Die STT 550 gibt das erkannte Zeichen an den Zeichensender 560 weiter. Der Zeichensender 560 sendet das ausgewählte Zeichen an das Gerät 510, beispielsweise über ein Signal außerhalb des Bandes oder über eine Internetnachricht weiter. Das Gerät 510 kann dann das ausgewählte Zeichen registrieren, beispielsweise durch Speichern des Zeichens in einem Speicher und/oder durch Anzeigen des Zeichens.
  • Gemäß 6 ist ein Verfahren 600 dargestellt, beispielsweise zur Herstellung zuvor genannter Ausführungsformen, etwa der Einrichtung 300. Die Schritte des Verfahrens 600 sind ohne Beschränkung durch Bezugnahme auf Elemente beschrieben, die zuvor hierin beispielsweise in den 3 bis 5 erläutert sind. Die Schritte des Verfahrens 600 können in einer anderen Reihenfolge als der dargestellten Reihenfolge ausgeführt werden, und in einigen Ausführungsformen können diese auch weggelassen werden.
  • In einem Schritt 610 wird eine Tastaturschnittstelle konfiguriert, um zu bestimmen, dass eine Tastaturtaste, beispielsweise eine Taste des Tastenfelds bzw. der Tastatur 310, gedrückt worden ist. In einem Schritt 620 ist eine Spracherkennungseinheit ausgebildet, eine gesprochene Eingabe bzw. Spracheingabe mit einem gesprochenen Äquivalent eines ersten alphanumerischen Zeichens zu verarbeiten, das mit der Taste verknüpft ist. Beispielsweise ist die „2”-Taste der Tastatur 310 mit „2”, „A”, „B”, oder „C” verknüpft, und die gesprochene Eingabe kann das gesprochene Äquivalent eines dieser Zeichen beinhalten. In einem Schritt 630 ist ein Dateneingabeprozessor ausgebildet, das erste alphanumerische Zeichen aus mehreren alphanumerischen Zeichen, die mit der Taste verknüpft sind, beispielsweise „2”, „A”, „B” oder „C” auszuwählen, wenn die Spracherkennungseinheit bestimmt, dass die gesprochene Eingabe das erste alphanumerische Zeichen bezeichnet.
  • In einigen Ausführungsformen umfasst das Verfahren 600 ferner einen Schritt 640, in welchem die Spracherkennungseinheit ausgebildet ist, mögliche alphanumerische Zeichenübereinstimmungen auf nur alphanumerische Zeichen zu beschränken, die mit der gedrückten Taste verknüpft sind.
  • In einigen der zuvor beschriebenen Ausführungsformen ist die Spracherkennungseinheit mit einem Dienstleister, der entfernt zu der elektronischen Einrichtung angeordnet ist, verbunden.
  • In einigen der zuvor beschriebenen Ausführungsformen ist die Tastatur eine Telefontastatur.
  • In einigen der zuvor beschriebenen Ausführungsformen sind die elektronische Einrichtung und der Dienstleister ausgebildet, über eine Funkkommunikationsverbindung zu kommunizieren.
  • Der Fachmann auf diesem Gebiet, für den diese Anmeldung gedacht ist, erkennt, dass andere und weitere Hinzufügungen, Löschungen, Ergänzungen und Modifizierungen an den beschriebenen Ausführungsformen vorgenommen werden können.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • ISO/IEC 9995-9:2009-Standard [0017]

Claims (10)

  1. Eine elektronische Einrichtung, die ausgebildet ist, Daten von einer Taste einer Tastatur zu empfangen, wobei die Taste mit einem ersten und einem zweiten alphanumerischen Zeichen verknüpft ist, und wobei die elektronische Einrichtung umfasst: eine Tastaturschnittstelle, die ausgebildet ist, das erste und das zweite alphanumerische Zeichen zu bestimmen, wenn die Taste gedrückt ist, einen Dateneingabeprozessor, der ausgebildet ist, das erste alphanumerische Zeichen aus dem ersten und dem zweiten alphanumerischen Zeichen auszuwählen, wenn eine Spracherkennungseinheit bestimmt, dass eine gesprochene Eingabe das erste alphanumerische Zeichen bezeichnet.
  2. Die Einrichtung nach Anspruch 1, wobei die Tastatur eine Telefontastatur ist.
  3. Die Einrichtung nach Anspruch 1, wobei die Tastatur eine vollständige Tastatur ist.
  4. Die Einrichtung nach Anspruch 1, wobei die Spracherkennungseinheit mögliche alphanumerische Zeichenübereinstimmungen auf nur alphanumerische Zeichen beschränkt, die mit der gedrückten Taste verknüpft sind.
  5. Die Einrichtung nach Anspruch 1, die ferner die Spracherkennungseinheit umfasst.
  6. Die Einrichtung nach Anspruch 1, wobei die Spracherkennungseinheit durch eine entfernte Dienstleistungsanwendung bereitgestellt ist, die mit der elektronischen Einrichtung in Verbindung steht.
  7. Die Einrichtung nach Anspruch 1, wobei das erste und das zweite alphanumerische Zeichen jeweils der Taste der Tastatur zugeordnet sind.
  8. Die Einrichtung nach Anspruch 1, wobei die Spracherkennungseinheit ausgebildet ist, die gesprochene Eingabe in ein gesprochenes Zeichen und ein Modifizierschlüsselwort zu zerlegen und das gesprochene Zeichen gemäß dem Modifizierschlüsselwort zu modifizieren.
  9. Ein System zum Eingeben von Daten in eine elektronische Einrichtung, mit: einem Empfänger, der ausgebildet ist, Tastatureingabedaten aus der elektronischen Einrichtung zu empfangen; einer Datenunterscheidungseinheit, die ausgebildet ist, eine gedrückte Taste aus zumindest einer ersten Taste und einer zweiten Taste der Tastatur zu bestimmen; einer Spracherkennungseinheit, die ausgebildet ist, eine gesprochene Eingabe zu empfangen, die einem ersten oder einem zweiten alphanumerischen Zeichen, die mit der gedrückten Taste verknüpft sind, entspricht; und einem Zeichensender, der ausgebildet ist, ein Signal an die elektronische Einrichtung zu senden, das angibt, ob das erste oder das zweite alphanumerische Zeichen durch die gesprochene Eingabe bezeichnet ist.
  10. Ein Verfahren zur Bildung einer tastenbetriebenen elektronischen Einrichtung, mit: Bereitstellen einer Tastaturschnittstelle, die ausgebildet ist zu erkennen, dass eine Taste der Tastatur gedrückt ist; Konfigurieren einer Spracherkennungseinheit derart, dass eine gesprochene Eingabe, die ein gesprochenes Äquivalent eines ersten mit der Taste verknüpften alphanumerischen Zeichens enthält, verarbeitet wird, Verbinden eines Dateneingabeprozessors mit der Spracherkennungseinheit, der ausgebildet ist, das erste alphanumerische Zeichen aus mehreren alphanumerischen Zeichen, die mit der Taste verknüpft sind, auszuwählen, wenn die Spracherkennungseinheit bestimmt, dass die gesprochene Eingabe das erste alphanumerische Zeichen angibt.
DE102013002962A 2012-02-29 2013-02-22 Sprachunterstützte Tastatureingabe Withdrawn DE102013002962A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/408,866 US20130225240A1 (en) 2012-02-29 2012-02-29 Speech-assisted keypad entry
US13/408,866 2012-02-29

Publications (1)

Publication Number Publication Date
DE102013002962A1 true DE102013002962A1 (de) 2013-10-24

Family

ID=49003436

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102013002962A Withdrawn DE102013002962A1 (de) 2012-02-29 2013-02-22 Sprachunterstützte Tastatureingabe

Country Status (4)

Country Link
US (1) US20130225240A1 (de)
CN (1) CN103297579A (de)
DE (1) DE102013002962A1 (de)
TW (1) TW201351205A (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9978370B2 (en) * 2015-07-31 2018-05-22 Lenovo (Singapore) Pte. Ltd. Insertion of characters in speech recognition
KR102592907B1 (ko) * 2018-06-22 2023-10-23 삼성전자주식회사 텍스트 입력 디바이스 및 그 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004095414A1 (en) * 2003-04-18 2004-11-04 Keyless Systems Ltd Systems to enhance data entry in mobile and fixed environment
EP1766940A4 (de) * 2004-06-04 2012-04-11 Systems Ltd Keyless System zur verbesserung der dateneingabe in einer mobilen und festen umgebung

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISO/IEC 9995-9:2009-Standard

Also Published As

Publication number Publication date
US20130225240A1 (en) 2013-08-29
CN103297579A (zh) 2013-09-11
TW201351205A (zh) 2013-12-16

Similar Documents

Publication Publication Date Title
DE60125696T2 (de) Universelle Fernsteuerung geeignet zum Empfang von Spracheingaben
DE102015110621B4 (de) Intelligente Untertitel
DE60318181T2 (de) Automatische Einstellung eines Tastatureingabemodus als Antwort auf eine ankommende Textnachricht
DE112015003382B4 (de) Spracherkennungseinrichtung und Spracherkennungsverfahren
DE202005022012U1 (de) Mobiles Endgerät, das Funktionen unter Anwendung einer gesuchten Telefonnummer ausführen kann
DE102014206160B4 (de) Benutzerschnittstellenvorrichtung unter verwendung eines lautsprechers, entsprechendes verfahren sowie computerlesbares medium
DE112015006325T5 (de) Informations-Bereitstellsystem
DE102017114145A1 (de) Verfahren und Vorrichtung zur Informationsverarbeitung
DE112016007250B4 (de) Verfahren und System zum Optimieren von Spracherkennung und Informationssuche basierend auf Gesprächsgruppenaktivitäten
DE102013002962A1 (de) Sprachunterstützte Tastatureingabe
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE112015003357T5 (de) Verfahren und System zum Erkennen einer eine Wortabfolge enthaltenden Sprachansage
EP3335405A1 (de) Verfahren zum verarbeiten einer benutzereingabe und kraftfahrzeug mit einer datenverarbeitungseinrichtung
EP3115886B1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
DE4243181C2 (de) Sprachgesteuerte Vorrichtung und Verfahren zu deren Betrieb
DE102017122298A1 (de) Dynamisches Einstellen eines Spracherkennungssystems
DE102017124058A1 (de) Identifizieren von kontakten unter verwendung von spracherkennung
DE102014108592B4 (de) Ausgaben eines tragbaren Informationshandhabungsgeräts
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
DE112015006437T5 (de) Suchmaschine mit Mehrfachzeichen-Suchkette für ein Fahrzeug-Informationssystem
DE602004011041T2 (de) Hinzufügen von Fragezeichen zu elektronischen Nachrichten
DE102019118175A1 (de) Schutzvorrichtung, Telekommunikationseinrichtung mit entsprechender Schutzvorrichtung, Betreiben einer entsprechenden Schutzvorrichtung und Verfahren zum Erkennen einer Absicht durch eine entsprechende Schutzvorrichtung
EP1414223B1 (de) Texteingabe für ein Endgerät
DE102017125070A1 (de) Verfahren und Vorrichtung zur Eröffnung einer Mensch-Maschine-Kommunikation
DE102023112337A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: KRAUS & WEISERT PATENTANWAELTE PARTGMBB, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee