DE10126020A1 - Hybrides Diktier-/Dialogsystem für Spracheingabe und Tastaturbestätigung - Google Patents

Hybrides Diktier-/Dialogsystem für Spracheingabe und Tastaturbestätigung

Info

Publication number
DE10126020A1
DE10126020A1 DE2001126020 DE10126020A DE10126020A1 DE 10126020 A1 DE10126020 A1 DE 10126020A1 DE 2001126020 DE2001126020 DE 2001126020 DE 10126020 A DE10126020 A DE 10126020A DE 10126020 A1 DE10126020 A1 DE 10126020A1
Authority
DE
Germany
Prior art keywords
correction
speaker
term
spoken
program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE2001126020
Other languages
English (en)
Inventor
Olaf Berberich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE2001126020 priority Critical patent/DE10126020A1/de
Publication of DE10126020A1 publication Critical patent/DE10126020A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Es handelt sich um ein Verfahren für die Spracheingabe von Anweisungen und Diktaten für einen Computer. Der Computer kodiert gesprochene Worte in digital kodierte Begriffe. Ist der Computer in der Lage, die Anweisungen auf mehrere Art und Weise zu kodieren, werden die Alternativbegriffe in einem Korrekturfenster angezeigt und der gewünschte Begriff unmittelbar über eine Eingabeeinheit (Tasteneingabe) bestätigt.

Description

  • Die Erfindung betrifft ein Verfahren entsprechend dem Oberbegriff des Anspruch 1.
  • Es ist bekannt, daß Spracherkennungssysteme heute in der Lage sind, akustische Signale in einen geschriebenen Text oder eine Befehlsanweisung umzusetzen. Akustische Signale können direkt über ein Mikrofon an einen Computer oder über einen Telefondienst an einen zentralen Computer, einen sogenannten Server übergeben werden. Zu einer direkten Kommunikation mit einem Server ist im Prinzip jedes intelligente Telefon in der Lage (siehe hierzu auch PCT/EP 01/02499). Die technischen Grenzen der Spracherkennung werden im Wesentlichen bestimmt durch die unterschiedliche Lautstärke, Tonhöhe und Frequenzverteilung, die je nach Sprecher und Auslegung des Microfons entstehen.
  • Bei Spracherkennungssystemen unterscheiden wir heute zwischen Diktiersystemen und Dialogsystemen.
  • Diktiersysteme sind sprecheradaptiv, das heißt, die Systeme müssen auf jeden Sprecher neu trainiert werden. Sie bieten den Vorteil, daß dann ein relativ großer Wortschatz verstanden wird und somit auch die Eingabe komplexer Sätze möglich ist.
  • Dialogsysteme bieten den Vorteil, daß sie vom Sprecher und System unabhängig sind. Da jedoch kein persönliches Sprachprofil gespeichert ist, können nur grobe Muster voneinander unterschieden werden. Z. B. beim Handy werden die selbst gesprochenen Namen zu Telefonnummern abgelegt und später zur Telefonwahl wieder aufgerufen. Bereits bei wenigen Telefonnummern kommt es zur Verwechslung.
  • Bei Callcenteranwendungen können auf dem Server wesentlich mehr Referenzdaten als auf einem Handy verglichen werden. Deshalb versucht man, Dialogsysteme zu optimieren in dem man von möglichst vielen Sprechern mit unterschiedlichen Hintergrundgeräuschen (Büro, Auto, etc.). Europaweit werden über European Language Resources Association (ELRA) Sprachvergleichsdaten gesammelt.
  • Die Anforderungen an Diktiersysteme und Dialogsysteme unterscheiden sich insofern, daß bei einem Diktiersystem fehlerhafte einzelne Worte toleriert werden können. In der Regel geht man heute noch davon aus, das solche automatisch erzeugten Texte nachträglich Korrektur gelesen werden. Einzelne fehlerhafte Wörter werden im Gesamtkontext als solche erkannt und können korrigiert werden. Diktiersysteme sind deshalb so gestaltet, daß Sie entweder über keine Textanzeige verfügen, sondern erst beim Einspielen in ein Textverarbeitungsprogramm der Text sichtbar wird oder daß der Text parallel zum Diktat am Bildschirm sichtbar wird. Hier kann man gegebenenfalls mit der Computermaus an die fehlerhafte Stelle fahren und das, Wort ersetzen. Bei Dialogsystemen jedoch ist eine fehlerhafte Interpretation nicht zulässig, deshalb wiederholt der Computer in der Regel den erhaltenen Befehl per Sprachgenerator und erwartet eine erneute Bestätigung.
  • Aufgabe der Erfindung ist es, die Vorteile von Diktiersystemen mit den Möglichkeiten von Dialogsystemen zu verbinden und durch eine Tastatur gestützte Dialogkontrolle die Eingabe zu optimieren. Bisherige sprachgesteuerte Dialogsysteme haben den Nachteil, daß sie permanent sprachliche Bestätigungen für im Computersystem hinterlegte Alternativen erwarten. Während das Diktieren von Texten bei entsprechend trainierten Programmen für den Schreibmaschinen Ungeübten schneller geht, als die Texterfassung über Tastatur, verlangsamt bei Dialoganweisungen oder beim Diktat bei alternativen Schreibmöglichkeiten permanentes Nachfragen durch den Sprachgenerator des Computers den Dialogprozess. Insofern will die Erfindung den Dialog durch die Einbeziehung der Tastatur beschleunigen.
  • Der Lösungsansatz geht im Wesentlichen davon aus, daß der Benutzer entweder über seinem Computer oder über ein intelligentes Telefon (z. B. Handy) mit einem Server kommuniziert. Es ist möglich, über eine solche Verbindung heute sowohl Sprache als auch EDV-Daten auszutauschen.
  • Ruft Herr Muster nach dem Stand der Technik z. B. ein Call-Center für den Computersupport an, so ist er mit einem Dialogsystem verbunden. Das Dialogsystem fragt z. B. ob Herr Muster Endkunde oder Händler ist, welche Abteilung er sprechen möchte, in welcher Region er sich befindet, usw. Als Antwort erwartet das Dialogsystem gesprochene Worte von Herrn Muster. Diese Worte werden vom Dialogsystem in digital kodierte Begriffe gewandelt. Alternativ wird hierbei zum Betätigen einer Taste (bitte wählen Sie die "neun" für Support von Computern) oder zur Eingabe eines Sprachbefehls aufgerufen.
  • Im Gegensatz hierzu zeigt die Erfindung Herrn Muster in einem Korrekturfenster die Alternativbegriffe (z. B. Geschäftsleitung, Buchhaltung, Support, etc.) an. Idealerweise wird ein Telefon an die Erfindung derart angepaßt, daß neben jeder Korrekturfensterzeile ein Schalter angebracht wird (siehe Fig. 2.). Auch ein Touchscreen ist denkbar, auf dem man direkt den gewünschten Begriff anklicken kann. Grundsätzlich eignet sich jedoch auch jedes Handy auf dem man eine Textanzeige bestätigen kann für das erfindungsgemäße Verfahren. Herr Muster betätigt die entsprechende Taste und das Dialogsystem bestätigt die gewählte Alternative wiederum über Sprache.
  • Eine weitere Möglichkeit, die Erfindung einzusetzen, besteht in Diktiersystemen. Im Gegensatz zum Dialogsystem kann hierbei die Anzeige asynchron zum Sprachprozeß ablaufen. Herr Müller diktiert einen Text. Wenn das Diktiersystem beim Vergleich mit seinem Wörterbuch mehrere Alternativbegriffe findet, zeigt es diese auf dem Korrekturfenster an. Herr Müller bestätigt die richtige Alternative, ohne den Sprachfluß beim Diktat zu unterbrechen. Er befindet sich also bereits beim Diktat beim nächsten Satz, wenn noch die im letzten Satz gefundenen Interpretationsmöglichkeiten auf dem Korrekturfenster angezeigt werden. Der Computer merkt sich alle weiteren Fragestellungen und bietet unmittelbar unabhängig vom Sprachfluß die jeweils nächsten Alternativbegriffe auf dem Korrekturfenster an, wenn Herr Müller die vorhergehende Fragestellung über die Tastatur beantwortet hat.
  • Die Vorteile der Erfindung sind erheblich. Insbesondere wenn ein zentraler Server benutzt wird, kann von jedem intelligenten Telefon nicht nur ein Diktat, sondern auch ein Dialogbefehl aufgegeben werden. Die derzeitige Funktionalität des Tonwahlverfahrens (bitte wählen Sie die neun für..) führt dazu, daß eine hohe kognitive Leistung vom Bediener erwartet wird, da die Geschwindigkeit, in der das Dialogsystem Anweisungen gibt, vom Benutzer nicht beeinflußt werden kann. Dieser hat gegebenenfalls die entsprechende Anweisung nicht so schnell verstanden oder bereits vergessen, wenn alle Alternativen vorgelesen wurden. Diese Probleme werden durch die unmittelbare Eingabemöglichkeit der Erfindung gelöst. Auch stehen in Zukunft für die Erfindung genügend intelligente Endgeräte zur Verfügung.
  • Insbesondere das Handy wird immer mehr Displayfunktionalitäten integrieren. Durch Techniken wie Bluetooth wird die Spracheingabe an Bedeutung gewinnen. Kopfhörer und getrenntes Display werden Standard. Durch den hybriden Dialog werden alle Fähigkeiten des Benutzers beansprucht und hierdurch die Verarbeitungsgeschwindigkeit erheblich gesteigert. Darüber hinaus sind Fehlinterpretationen bei geschriebenen Anweisungen wesentlich seltenen als bei gesprochenen.
  • Das erfindungsgemäße Verfahren wird im folgenden anhand einem Beispiel in Fig. 1 näher beschrieben.
  • Ein intelligentes Telefon 1 ist mit einem Mikrofon 2, einer Vermittlungseinheit 3, und einer Identifizierungsvorrichtung 4 ausgestattet. Das Telefon kann nach dem aus PCT/EP 01/02499 bekannten Verfahren einen Server 16 anwählen.
  • Wenn Herr Muster das erste Mal das Dialogsystem benutzt, wählt er die Anwendungen aus dem Speicher 15 aus, welche er über das Dialogsystem auslösen will (z. B. Diktat oder eine Anwendung mit einem geringen Befehlssatz).
  • Herr Muster spricht dann eine Sprechprobe in einem der Komplexität der Anwendung angemessenen Umfang auf den Speicher für Individualproben 5. Die individuellen Sprechproben 5 werden mit den Sprachvergleichsdaten auf dem Speicher 6 in Analyse 9 verglichen. Charakteristische Merkmale werden in dem Sprachprofil des Speicher 7 festgehalten. Das Sprachprofil wird der für Herrn Muster auf der Identifizierungsvorrichtung 4 abgelegten Identifizierungsnummer zugeordnet.
  • Will Herr Muster einen Dialog führen, so stellt er wiederum über Telefon 1 zu dem Server 16 eine Verbindung her. Der Server beginnt über die Generierung von Sprache einen Dialog. Sind mehrere Anwendungen im Anwendungsspeicher 15 hinterlegt, so fragt der Server erst nach der gewünschten Anwendung. Je nach Auswahl der Anwendung wird in der "Speichereinheit der Möglichkeiten" 8 das entsprechende Regelwerk zur Verfügung gestellt. Das entsprechende Anwendungsprogramm aus 15 wird aktiviert. Je nach Art des Anwendungsprogramms erwartet dieses nach jeder Anweisung eine Bestätigung vom der Tastatur 14 oder pflegt sukzessive die von Herrn Muster erhaltenen Alternativbegriffe ein (beim Diktat).
  • Bei jeder Spracheingabe von Herrn Muster wird diese in der Analyse 10 mit den im Speicher 6 hinterlegten Sprachvergleichsdaten abgeglichen. Alternativbegriffe werden in der Analyse 11 über den Vergleich mit dem Sprachprofil in Speicher 7 reduziert. Die verbleibenden Alternativbegriffe werden mit den Regeln der "Speichereinheit der Möglichkeiten" in Analyse 12 verglichen.
  • Sind weiterhin Alternativbegriffe vorhanden oder ist eine Bestätigung nötig, werden diese auf dem Korrekturfenster der Telefons 13 angezeigt. Herr Muster wählt die gewünschte Alternative und gibt per Tastatur 14 die Anweisung an das Anwendungsprogramm in Speicher 15.
  • Ergibt die Analyse 12 keine Alternativbegriffe und ist die Relevanz des Befehls nicht so hoch, daß eine Kontrolleingabe nötig ist, werden die Daten direkt an das Anwendungsprogramm in Speicher 15 weitergeleitet.
  • Fig. 2 zeigt, wie je auf einem Display 2 angezeigter Alternative eine. Taste 1 idealerweise optisch direkt zugeordnet wird.

Claims (6)

1. Verfahren zur automatischen Umwandlung von einem Sprecher gesprochener Worte in digital kodierte Begriffe, die von einem Computer verarbeitet werden, wobei die Umwandlung von einem Programm zur Sprachanalyse bewerkstelligt wird, dadurch gekennzeichnet, dass in den Fällen, in denen das Programm keine eindeutige Zuordnung eines ihm zur Verfügung stehenden Begriffes zu einem gesprochenen Wort vornehmen kann, ein Begriffsentwurf in einem Korrekturfenster eines Bildschirmes zur Korrektur angezeigt wird, wobei der Sprecher den Begriffsentwurf durch eine unmittelbare Eingabe verändert und/oder bestätigt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Sprecher die Eingabe per Tastendruck durchführt.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass von dem Programm Alternativbegriffe zu dem Begriffsentwurf angeboten werden, aus denen der Sprecher den richtigen Begriff auswählen und bestätigen kann.
4. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass das Programm auf einem in ein Datenleitungsnetz, insbesondere in ein Telekommunikationsnetz, eingebundenen zentralen Server läuft, und als Korrekturfenster das Display eines an das Netz angeschlossenen Endgerätes, insbesondere eines Telefons, genutzt wird.
5. Dialogsystem umfassend ein Datenleitungsnetz mit einem zentralen Server, auf dem ein Programm zur Sprachkonvertierung läuft, und mit zur Eingabe gesprochener Worte geeigneten Endgeräten, insbesondere mit Mobiltelefonen, wobei das Programm gesprochene Worte in digital verarbeitbare Begriffe umsetzt und einen über ein Endgerät zugeschalteten Anrufer im gesprochenen Dialog durch eine Menuesteuerung führt, gekennzeichnet durch ein der Sprachkonvertierung zugeordnetes Korrekturmodul, das in Fällen, in denen keine eindeutige Zuordnung eines Begriffes zu einem gesprochenen Wort möglich ist, einen Begriffsentwurf auf den Bildschirm eines Endgerätes zurückgibt, wo er der unmittelbaren Bearbeitung durch den Anrufer zur Verfügung steht.
6. Diktiersystem umfassend einen Computer und ein darauf laufendes Konvertierungsprogramm, das von einem Sprecher gesprochene Worte automatisch in digital verarbeitbare Begriffe umsetzt, wobei die Begriffe in einer Begriffsdatei zur Verfügung stehen, gekennzeichnet durch ein der Sprachkonvertierung zugeordnetes Korrekturmodul, das in Fällen, in denen keine eindeutige Zuordnung eines Begriffes zu einem gesprochenen Wort möglich ist, in einem Korrekturfenster eines Bildschirms einen Begriffsentwurf ausgibt, wo er während des laufenden Diktates der unmittelbaren Bearbeitung durch den Anrufer zur Verfügung steht.
DE2001126020 2001-05-28 2001-05-28 Hybrides Diktier-/Dialogsystem für Spracheingabe und Tastaturbestätigung Withdrawn DE10126020A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE2001126020 DE10126020A1 (de) 2001-05-28 2001-05-28 Hybrides Diktier-/Dialogsystem für Spracheingabe und Tastaturbestätigung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2001126020 DE10126020A1 (de) 2001-05-28 2001-05-28 Hybrides Diktier-/Dialogsystem für Spracheingabe und Tastaturbestätigung

Publications (1)

Publication Number Publication Date
DE10126020A1 true DE10126020A1 (de) 2003-01-09

Family

ID=7686451

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2001126020 Withdrawn DE10126020A1 (de) 2001-05-28 2001-05-28 Hybrides Diktier-/Dialogsystem für Spracheingabe und Tastaturbestätigung

Country Status (1)

Country Link
DE (1) DE10126020A1 (de)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0366192A2 (de) * 1988-10-25 1990-05-02 Koninklijke Philips Electronics N.V. Textverarbeitungsvorrichtung
DE4225475A1 (de) * 1992-08-01 1994-02-03 Philips Patentverwaltung Einrichtung zur Spracherkennung
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
DE19646634A1 (de) * 1996-11-12 1998-05-14 Bosch Gmbh Robert Verfahren zur Befehlseingabe mit Sprache
DE19851287A1 (de) * 1998-11-06 2000-06-21 Siemens Ag Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte
WO2000046787A2 (en) * 1999-02-05 2000-08-10 Custom Speech Usa, Inc. System and method for automating transcription services

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0366192A2 (de) * 1988-10-25 1990-05-02 Koninklijke Philips Electronics N.V. Textverarbeitungsvorrichtung
US5031113A (en) * 1988-10-25 1991-07-09 U.S. Philips Corporation Text-processing system
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
DE4225475A1 (de) * 1992-08-01 1994-02-03 Philips Patentverwaltung Einrichtung zur Spracherkennung
DE4323241A1 (de) * 1993-07-12 1995-02-02 Ibm Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text
DE19646634A1 (de) * 1996-11-12 1998-05-14 Bosch Gmbh Robert Verfahren zur Befehlseingabe mit Sprache
DE19851287A1 (de) * 1998-11-06 2000-06-21 Siemens Ag Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte
WO2000046787A2 (en) * 1999-02-05 2000-08-10 Custom Speech Usa, Inc. System and method for automating transcription services

Similar Documents

Publication Publication Date Title
DE69839068T2 (de) System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung
DE69026866T2 (de) Wähleinheit mit Spracherkennung
DE60318181T2 (de) Automatische Einstellung eines Tastatureingabemodus als Antwort auf eine ankommende Textnachricht
DE10220524B4 (de) Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE69634474T2 (de) Interaktives Verfahren zur Sprachsteuerung zwischen einem Telefon und einem Benutzer
DE69732786T2 (de) Verfahren und gerät zum wiederauffinden einer gewünschten aufzeichnung in einem fernsprechverzeichnis
DE60033122T2 (de) Benutzeroberfläche zur Text-zu-Sprache-Umsetzung
DE60036931T2 (de) Anwender-sprachschnittstelle für sprachgesteuerte systeme
EP1324314A1 (de) Spracherkennungssystem und Verfahren zum Betrieb eines solchen
EP2047668B1 (de) Verfahren, sprachdialogsystem und telekommunikationsendgerät zur multilingualen sprachausgabe
CN104331148A (zh) 一种语音用户界面信息交互方法
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
DE602004004746T2 (de) Ortsabhängige Sprachwahlvorrichtung und Sprachwahlverfahren
DE19751123C1 (de) Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
WO2001067435A9 (de) Verfahren zum sprachgesteuerten initiieren von in einem gerät ausführbaren aktionen durch einen begrenzten benutzerkreis
DE102016221466A1 (de) Verfahren zum Verarbeiten einer Benutzereingabe und Kraftfahrzeug mit einer Datenverarbeitungseinrichtung
DE10126020A1 (de) Hybrides Diktier-/Dialogsystem für Spracheingabe und Tastaturbestätigung
EP1361738A1 (de) Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE19942869A1 (de) Verfahren und Einrichtung zum Betrieb einer sprachgesteuerten Einrichtung bei Kraftfahrzeugen
EP3115886A1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
DE112004002337T5 (de) Verfahren und Vorrichtung zum Eingeben alphabetischer Zeichen
DE102007024110A1 (de) Verfahren zur Beeinflussung der Interpretation multimodaler Eingaben
DE60030702T2 (de) Steuerung der Kapazität eines verteilten Spracherkennungssystems
EP1150479A2 (de) Verfahren zur interaktive Informationsabfrage mittels eines Mobiltelefons
DE10127852A1 (de) Verfahren zur Erkennung von Sprachinformationen

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8139 Disposal/non-payment of the annual fee