DE10126020A1

DE10126020A1 - Hybrides Diktier-/Dialogsystem für Spracheingabe und Tastaturbestätigung

Info

Publication number: DE10126020A1
Application number: DE2001126020
Authority: DE
Inventors: Olaf Berberich
Original assignee: Individual
Current assignee: Individual
Priority date: 2001-05-28
Filing date: 2001-05-28
Publication date: 2003-01-09

Abstract

Es handelt sich um ein Verfahren für die Spracheingabe von Anweisungen und Diktaten für einen Computer. Der Computer kodiert gesprochene Worte in digital kodierte Begriffe. Ist der Computer in der Lage, die Anweisungen auf mehrere Art und Weise zu kodieren, werden die Alternativbegriffe in einem Korrekturfenster angezeigt und der gewünschte Begriff unmittelbar über eine Eingabeeinheit (Tasteneingabe) bestätigt.

Description

Die Erfindung betrifft ein Verfahren entsprechend dem Oberbegriff des Anspruch 1.
Es ist bekannt, daß Spracherkennungssysteme heute in der Lage sind, akustische Signale in einen geschriebenen Text oder eine Befehlsanweisung umzusetzen. Akustische Signale können direkt über ein Mikrofon an einen Computer oder über einen Telefondienst an einen zentralen Computer, einen sogenannten Server übergeben werden. Zu einer direkten Kommunikation mit einem Server ist im Prinzip jedes intelligente Telefon in der Lage (siehe hierzu auch PCT/EP 01/02499). Die technischen Grenzen der Spracherkennung werden im Wesentlichen bestimmt durch die unterschiedliche Lautstärke, Tonhöhe und Frequenzverteilung, die je nach Sprecher und Auslegung des Microfons entstehen.
Bei Spracherkennungssystemen unterscheiden wir heute zwischen Diktiersystemen und Dialogsystemen.
Diktiersysteme sind sprecheradaptiv, das heißt, die Systeme müssen auf jeden Sprecher neu trainiert werden. Sie bieten den Vorteil, daß dann ein relativ großer Wortschatz verstanden wird und somit auch die Eingabe komplexer Sätze möglich ist.
Dialogsysteme bieten den Vorteil, daß sie vom Sprecher und System unabhängig sind. Da jedoch kein persönliches Sprachprofil gespeichert ist, können nur grobe Muster voneinander unterschieden werden. Z. B. beim Handy werden die selbst gesprochenen Namen zu Telefonnummern abgelegt und später zur Telefonwahl wieder aufgerufen. Bereits bei wenigen Telefonnummern kommt es zur Verwechslung.
Bei Callcenteranwendungen können auf dem Server wesentlich mehr Referenzdaten als auf einem Handy verglichen werden. Deshalb versucht man, Dialogsysteme zu optimieren in dem man von möglichst vielen Sprechern mit unterschiedlichen Hintergrundgeräuschen (Büro, Auto, etc.). Europaweit werden über European Language Resources Association (ELRA) Sprachvergleichsdaten gesammelt.
Die Anforderungen an Diktiersysteme und Dialogsysteme unterscheiden sich insofern, daß bei einem Diktiersystem fehlerhafte einzelne Worte toleriert werden können. In der Regel geht man heute noch davon aus, das solche automatisch erzeugten Texte nachträglich Korrektur gelesen werden. Einzelne fehlerhafte Wörter werden im Gesamtkontext als solche erkannt und können korrigiert werden. Diktiersysteme sind deshalb so gestaltet, daß Sie entweder über keine Textanzeige verfügen, sondern erst beim Einspielen in ein Textverarbeitungsprogramm der Text sichtbar wird oder daß der Text parallel zum Diktat am Bildschirm sichtbar wird. Hier kann man gegebenenfalls mit der Computermaus an die fehlerhafte Stelle fahren und das, Wort ersetzen. Bei Dialogsystemen jedoch ist eine fehlerhafte Interpretation nicht zulässig, deshalb wiederholt der Computer in der Regel den erhaltenen Befehl per Sprachgenerator und erwartet eine erneute Bestätigung.
Aufgabe der Erfindung ist es, die Vorteile von Diktiersystemen mit den Möglichkeiten von Dialogsystemen zu verbinden und durch eine Tastatur gestützte Dialogkontrolle die Eingabe zu optimieren. Bisherige sprachgesteuerte Dialogsysteme haben den Nachteil, daß sie permanent sprachliche Bestätigungen für im Computersystem hinterlegte Alternativen erwarten. Während das Diktieren von Texten bei entsprechend trainierten Programmen für den Schreibmaschinen Ungeübten schneller geht, als die Texterfassung über Tastatur, verlangsamt bei Dialoganweisungen oder beim Diktat bei alternativen Schreibmöglichkeiten permanentes Nachfragen durch den Sprachgenerator des Computers den Dialogprozess. Insofern will die Erfindung den Dialog durch die Einbeziehung der Tastatur beschleunigen.
Der Lösungsansatz geht im Wesentlichen davon aus, daß der Benutzer entweder über seinem Computer oder über ein intelligentes Telefon (z. B. Handy) mit einem Server kommuniziert. Es ist möglich, über eine solche Verbindung heute sowohl Sprache als auch EDV-Daten auszutauschen.
Ruft Herr Muster nach dem Stand der Technik z. B. ein Call-Center für den Computersupport an, so ist er mit einem Dialogsystem verbunden. Das Dialogsystem fragt z. B. ob Herr Muster Endkunde oder Händler ist, welche Abteilung er sprechen möchte, in welcher Region er sich befindet, usw. Als Antwort erwartet das Dialogsystem gesprochene Worte von Herrn Muster. Diese Worte werden vom Dialogsystem in digital kodierte Begriffe gewandelt. Alternativ wird hierbei zum Betätigen einer Taste (bitte wählen Sie die "neun" für Support von Computern) oder zur Eingabe eines Sprachbefehls aufgerufen.
Im Gegensatz hierzu zeigt die Erfindung Herrn Muster in einem Korrekturfenster die Alternativbegriffe (z. B. Geschäftsleitung, Buchhaltung, Support, etc.) an. Idealerweise wird ein Telefon an die Erfindung derart angepaßt, daß neben jeder Korrekturfensterzeile ein Schalter angebracht wird (siehe Fig. 2.). Auch ein Touchscreen ist denkbar, auf dem man direkt den gewünschten Begriff anklicken kann. Grundsätzlich eignet sich jedoch auch jedes Handy auf dem man eine Textanzeige bestätigen kann für das erfindungsgemäße Verfahren. Herr Muster betätigt die entsprechende Taste und das Dialogsystem bestätigt die gewählte Alternative wiederum über Sprache.
Eine weitere Möglichkeit, die Erfindung einzusetzen, besteht in Diktiersystemen. Im Gegensatz zum Dialogsystem kann hierbei die Anzeige asynchron zum Sprachprozeß ablaufen. Herr Müller diktiert einen Text. Wenn das Diktiersystem beim Vergleich mit seinem Wörterbuch mehrere Alternativbegriffe findet, zeigt es diese auf dem Korrekturfenster an. Herr Müller bestätigt die richtige Alternative, ohne den Sprachfluß beim Diktat zu unterbrechen. Er befindet sich also bereits beim Diktat beim nächsten Satz, wenn noch die im letzten Satz gefundenen Interpretationsmöglichkeiten auf dem Korrekturfenster angezeigt werden. Der Computer merkt sich alle weiteren Fragestellungen und bietet unmittelbar unabhängig vom Sprachfluß die jeweils nächsten Alternativbegriffe auf dem Korrekturfenster an, wenn Herr Müller die vorhergehende Fragestellung über die Tastatur beantwortet hat.
Die Vorteile der Erfindung sind erheblich. Insbesondere wenn ein zentraler Server benutzt wird, kann von jedem intelligenten Telefon nicht nur ein Diktat, sondern auch ein Dialogbefehl aufgegeben werden. Die derzeitige Funktionalität des Tonwahlverfahrens (bitte wählen Sie die neun für..) führt dazu, daß eine hohe kognitive Leistung vom Bediener erwartet wird, da die Geschwindigkeit, in der das Dialogsystem Anweisungen gibt, vom Benutzer nicht beeinflußt werden kann. Dieser hat gegebenenfalls die entsprechende Anweisung nicht so schnell verstanden oder bereits vergessen, wenn alle Alternativen vorgelesen wurden. Diese Probleme werden durch die unmittelbare Eingabemöglichkeit der Erfindung gelöst. Auch stehen in Zukunft für die Erfindung genügend intelligente Endgeräte zur Verfügung.
Insbesondere das Handy wird immer mehr Displayfunktionalitäten integrieren. Durch Techniken wie Bluetooth wird die Spracheingabe an Bedeutung gewinnen. Kopfhörer und getrenntes Display werden Standard. Durch den hybriden Dialog werden alle Fähigkeiten des Benutzers beansprucht und hierdurch die Verarbeitungsgeschwindigkeit erheblich gesteigert. Darüber hinaus sind Fehlinterpretationen bei geschriebenen Anweisungen wesentlich seltenen als bei gesprochenen.
Das erfindungsgemäße Verfahren wird im folgenden anhand einem Beispiel in Fig. 1 näher beschrieben.
Ein intelligentes Telefon 1 ist mit einem Mikrofon 2, einer Vermittlungseinheit 3, und einer Identifizierungsvorrichtung 4 ausgestattet. Das Telefon kann nach dem aus PCT/EP 01/02499 bekannten Verfahren einen Server 16 anwählen.
Wenn Herr Muster das erste Mal das Dialogsystem benutzt, wählt er die Anwendungen aus dem Speicher 15 aus, welche er über das Dialogsystem auslösen will (z. B. Diktat oder eine Anwendung mit einem geringen Befehlssatz).
Herr Muster spricht dann eine Sprechprobe in einem der Komplexität der Anwendung angemessenen Umfang auf den Speicher für Individualproben 5. Die individuellen Sprechproben 5 werden mit den Sprachvergleichsdaten auf dem Speicher 6 in Analyse 9 verglichen. Charakteristische Merkmale werden in dem Sprachprofil des Speicher 7 festgehalten. Das Sprachprofil wird der für Herrn Muster auf der Identifizierungsvorrichtung 4 abgelegten Identifizierungsnummer zugeordnet.
Will Herr Muster einen Dialog führen, so stellt er wiederum über Telefon 1 zu dem Server 16 eine Verbindung her. Der Server beginnt über die Generierung von Sprache einen Dialog. Sind mehrere Anwendungen im Anwendungsspeicher 15 hinterlegt, so fragt der Server erst nach der gewünschten Anwendung. Je nach Auswahl der Anwendung wird in der "Speichereinheit der Möglichkeiten" 8 das entsprechende Regelwerk zur Verfügung gestellt. Das entsprechende Anwendungsprogramm aus 15 wird aktiviert. Je nach Art des Anwendungsprogramms erwartet dieses nach jeder Anweisung eine Bestätigung vom der Tastatur 14 oder pflegt sukzessive die von Herrn Muster erhaltenen Alternativbegriffe ein (beim Diktat).
Bei jeder Spracheingabe von Herrn Muster wird diese in der Analyse 10 mit den im Speicher 6 hinterlegten Sprachvergleichsdaten abgeglichen. Alternativbegriffe werden in der Analyse 11 über den Vergleich mit dem Sprachprofil in Speicher 7 reduziert. Die verbleibenden Alternativbegriffe werden mit den Regeln der "Speichereinheit der Möglichkeiten" in Analyse 12 verglichen.
Sind weiterhin Alternativbegriffe vorhanden oder ist eine Bestätigung nötig, werden diese auf dem Korrekturfenster der Telefons 13 angezeigt. Herr Muster wählt die gewünschte Alternative und gibt per Tastatur 14 die Anweisung an das Anwendungsprogramm in Speicher 15.
Ergibt die Analyse 12 keine Alternativbegriffe und ist die Relevanz des Befehls nicht so hoch, daß eine Kontrolleingabe nötig ist, werden die Daten direkt an das Anwendungsprogramm in Speicher 15 weitergeleitet.
Fig. 2 zeigt, wie je auf einem Display 2 angezeigter Alternative eine. Taste 1 idealerweise optisch direkt zugeordnet wird.

Claims

1. Verfahren zur automatischen Umwandlung von einem Sprecher gesprochener Worte in digital kodierte Begriffe, die von einem Computer verarbeitet werden, wobei die Umwandlung von einem Programm zur Sprachanalyse bewerkstelligt wird, dadurch gekennzeichnet, dass in den Fällen, in denen das Programm keine eindeutige Zuordnung eines ihm zur Verfügung stehenden Begriffes zu einem gesprochenen Wort vornehmen kann, ein Begriffsentwurf in einem Korrekturfenster eines Bildschirmes zur Korrektur angezeigt wird, wobei der Sprecher den Begriffsentwurf durch eine unmittelbare Eingabe verändert und/oder bestätigt.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Sprecher die Eingabe per Tastendruck durchführt.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass von dem Programm Alternativbegriffe zu dem Begriffsentwurf angeboten werden, aus denen der Sprecher den richtigen Begriff auswählen und bestätigen kann.

4. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass das Programm auf einem in ein Datenleitungsnetz, insbesondere in ein Telekommunikationsnetz, eingebundenen zentralen Server läuft, und als Korrekturfenster das Display eines an das Netz angeschlossenen Endgerätes, insbesondere eines Telefons, genutzt wird.

5. Dialogsystem umfassend ein Datenleitungsnetz mit einem zentralen Server, auf dem ein Programm zur Sprachkonvertierung läuft, und mit zur Eingabe gesprochener Worte geeigneten Endgeräten, insbesondere mit Mobiltelefonen, wobei das Programm gesprochene Worte in digital verarbeitbare Begriffe umsetzt und einen über ein Endgerät zugeschalteten Anrufer im gesprochenen Dialog durch eine Menuesteuerung führt, gekennzeichnet durch ein der Sprachkonvertierung zugeordnetes Korrekturmodul, das in Fällen, in denen keine eindeutige Zuordnung eines Begriffes zu einem gesprochenen Wort möglich ist, einen Begriffsentwurf auf den Bildschirm eines Endgerätes zurückgibt, wo er der unmittelbaren Bearbeitung durch den Anrufer zur Verfügung steht.

6. Diktiersystem umfassend einen Computer und ein darauf laufendes Konvertierungsprogramm, das von einem Sprecher gesprochene Worte automatisch in digital verarbeitbare Begriffe umsetzt, wobei die Begriffe in einer Begriffsdatei zur Verfügung stehen, gekennzeichnet durch ein der Sprachkonvertierung zugeordnetes Korrekturmodul, das in Fällen, in denen keine eindeutige Zuordnung eines Begriffes zu einem gesprochenen Wort möglich ist, in einem Korrekturfenster eines Bildschirms einen Begriffsentwurf ausgibt, wo er während des laufenden Diktates der unmittelbaren Bearbeitung durch den Anrufer zur Verfügung steht.