DE69910412T2

DE69910412T2 - Sprachgesteuerte navigation für einen elektronischen post leser

Info

Publication number: DE69910412T2
Application number: DE69910412T
Authority: DE
Inventors: Luc Van Tichelen
Original assignee: Lernout and Hauspie Speech Products NV
Current assignee: Lernout and Hauspie Speech Products NV
Priority date: 1998-09-30
Filing date: 1999-09-30
Publication date: 2004-06-24
Anticipated expiration: 2019-10-01
Also published as: AU6116499A; DE69910412D1; CA2349564A1; EP1116217B1; EP1116217A1; ATE247325T1; WO2000019408A1

Description

TECHNISCHER BEREICH
Die vorliegende Erfindung bezieht sich auf die Anwendung eines Text-zu-Sprache-Lesegerätes, welches durch mit natürlicher Stimme gesprochene Befehle über ein sprachgesteuertes Interface geführt wird.
HINTERGRUND DES FACHGEBIETS
Text-zu-Sprache-(TTS-)Umwandlungssysteme wandeln eine Textquelle, z.B. E-Mail, in künstliche Stimme bzw. Sprache, wie dies z.B. im US-Patent 5,634,084 von Malsheen et al. veröffentlicht wird. Dies kann bequem sein, wenn auf eine Textquelle zugegriffen werden kann, jedoch kehre Textanzeigevorrichtungen zur Verfügung stehen. Ein gebräuchliches Beispiel dieser Situation ist der Zugriff auf E-Mail-Nachrichten über Telefon aus der Ferne. Ein derartiger Zugriff aus der Ferne auf E-Mail-Nachrichten wurde zuvor in einer Weise ausgeführt, welche ähnlich für Zugriffssysteme aus der Ferne für Sprach-Mail sind, typischerweise durch Telefonnummer-Tastatur-Anschläge oder, in modernen Systemen, durch isolierte Sprachworterkennung mit gesprochenen Befehlen, wie z. B. "abspielen", "nächstes", "Pause", "löschen", etc..
Wenn man dem TTS-Lesen einer Textquelle, wie z.B, einer E-Mail-Nachricht zuhört, kann ein Nutzer eines zuvor existierenden Systems durch die Probleme beim Auseinandersetzen mit langen Texten frustriert sein. Es ist jedoch möglich, mit Systemen entsprechend dem Stand der Technik das Lesen einer langen Nachricht zu stoppen und sich zur nächsten Nachricht zu begeben.
ZUSAMMENFASSUNG DER ERFINDUNG
Eine bevorzugte Ausführungsform der vorliegenden Erfindung liefert ein Text-zu-Sprache-Umwandlungssystem. Ein derartiges System beinhaltet einen Textanalysealgorithmus zum Empfangen einer Folge von Schriftzeichen, welche einen Eingangstext darstellen, und erstellt Marker, welche die Schriftzeichenfolge in eine Folge von hörbaren Abschnitten unterteilt, ein Text/ Sprach-Umwandlungslesegerät, welches mit dem Textanalysealgorithmus verbunden ist und welches einen fahrbaren Zeiger zum Identifizieren eines hörbaren Abschnitts besitzt, welchen das Text-zu-Sprache-Umwandlungslesegerät in künstliche Sprache umwandeln soll, und ein sprachgesteuertes Nutzer-Interface, in Kommunikation mit dem Text-zu-Sprache-Umwandlungslesegerät, welches einem Nutzer gestattet, den Zeiger auf einen gewünschten Marker zu richten.
In einer weiteren Ausführungsform erstellt der Textanalysealgorithmus die Marker basierend auf Heuristik, oder wenigstens basierend auf einer vorher festgelegten Regel. Die wenigstens eine vorher festgelegte Regel kann das Auftreten einer vorher festgelegten Folge von Schriftzeichen oder eine vorher festgelegte Anzahl von Schriftzeichen im Eingabetext beinhalten. Es kann erforderlich sein, dass eine Minimalanzahl von Schriftzeichen im Eingangstext zwischen benachbarten Markern auftritt, oder es darf eine Maximalanzahl von Textschriftzeichen im Eingangstext zwischen benachbarten Markern auftreten, oder beides. Zusätzlich kann der führbare Zeiger mit Parametern verknüpft sein, welche hörbare Charakteristika beschreiben, welche mit dem hörbaren Abschnitt verbunden sind, welcher durch den führbaren Zeiger identifiziert wird.
Eine bevorzugte Ausführungsform beinhaltet auch ein Verfahren zum Verarbeiten von Text in Sprache. Ein derartiges Verfahren beinhaltet das Empfangen einer Folge von Schriftzeichen in ei nem Textanalysealgorithmus, welche einen Eingangstext darstellen, und das Erstellen von Markern, welche die Folge von Schriftzeichen in eine Folge von hörbaren Abschnitten aufteilen, das Identifizieren eines hörbaren Abschnitts, welcher in eine künstliche Sprache über ein Text-zu-Sprache-Umwandlungslesegerät gewandelt werden soll, welches mit dem Textanalysealgorithmus verbunden ist und welches einen führbaren Zeiger besitzt, und das Gestatten, dass ein Nutzer den Zeiger auf einen gewünschten Marker richtet, über ein sprachgesteuertes Nutzer-Interface, welches mit dem Text-zu-Sprache-Umwandlungslesegerät in Kommunikation steht.
In einer weiteren Ausführungsform werden die Marker basierend auf Heuristik erstellt, oder basierend auf wenigstens einer vorher festgelegten Regel. Die wenigstens eine vorher festgelegte Regel kann das Auftreten einer vorher festgelegten Folge von Schriftzeichen im Eingangstext oder eine vorher festgelegte Anzahl von Schriftzeichen beinhalten. Eine Minimalanzahl von Schriftzeichen kann erforderlich sein, im Eingangstext zwischen benachbarten Markern aufzutreten, oder eine Maximalanzahl von Schriftzeichen darf im Eingangstext zwischen benachbarten Markern auftreten, oder beides. Zusätzlich kann der führbare Zeiger mit Parametern verknüpft sein, welche die hörbaren Charakteristika beschreiben, welche mit dem hörbaren Abschnitt verbunden sind, welcher durch den führbaren Zeiger identifiziert wird.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die vorliegende Erfindung kann schließlich besser mit Bezug auf die folgende detaillierte Beschreibung verstanden werden, welche zusammen mit den beigefügten Zeichnungen gegeben wird, in welchen:
1 ein Grund-Blockschaltbild eines sprachgeführten Textzu-Sprache-Umwandlungslesegerätes entsprechend einer bevorzugten Ausführungsform darstellt;
2 einen Eingabetext darstellt, welcher in hörbare Abschnitte entsprechend einer bevorzugten Ausführungsform unterteilt ist.
DETAILLIERTE BESCHREIBUNG SPEZIELLER AUSFÜHRUNGSFORMEN
Eine bevorzugte Ausführungsform der vorliegenden Erfindung, wie sie in 1 gezeigt wird, nimmt eine Texteingabe 1, welche eine Folge von Textschriftzeichen darstellt, und verarbeitet sie in einem Textanalysealgorithmus 2, welcher Pausenpositionsmarker erstellt, welche den Texteingang 1 in eine Folge von hörbaren Abschnitten 3 des analysierten Textes aufteilt. Die hörbaren Abschnitte 3 werden in ein Text-zu-Sprache-Umwandlungs-(TTS-)Lesegerät 4 eingegeben, welches über ein sprachgesteuertes Nutzer-Interface 5 mit natürlicher Stimme gesteuert wird. Das TTS-Lesegerät 4 gibt künstliche Stimme 6 an den Benutzer aus. In einer typischen Anwendung ist die Texteingabe 1 eine E-Mail-Nachricht zum Ausgeben an einen Systemnutzer über eine Telefonleitung. Die hörbaren Abschnitte 3 besitzen nahezu Absatzgröße, welche es dem Nutzer gestattet, sich an einer bequemen Navigation innerhalb des Textes zu erfreuen, so dass die Position der Lesegerät-Stimme leicht an die gewünschten Textstellen geführt werden kann.
Wie in 2 gezeigt wird, teilt eine bevorzugte Ausführungsform den Eingangstext 20 in hörbare Abschnitte 21 auf, welche nahezu die Größe von Paragraphen bzw. Absätzen besitzen. Eine hörbare Abschnittsanalysetabelle 22 wird geschaffen, welche eine Abschnittszahl 23 und eine Schriftzeichenposition 24 innerhalb des Eingangstextes 20 mit jedem hörbaren Abschnitt 21 in Verbindung bringt und welche die Position eines Abschnitts pausen-Positionsmarkers 25 am Ende des hörbaren Abschnittes 21 markiert. Die Schriftzeichenposition 24 des Abschnittspausen-Positionsmarkers 25 wird entsprechend dem Schriftzeichenzählen und verschiedener Analyseregeln festgelegt. Z. B. kann ein Abschnittspausen-Positionsmarker 23 durch zwei aufeinander folgende Leerzeilen, durch einen Zeilenrücklauf, welcher von einem Großbuchstaben gefolgt wird, oder durch ein Zahlwort, gefolgt durch eine Periode und ein Leerzeichen geschaffen werden. Dort wo die Abschnittspausen-Positionsmarker 25 anfangs relativ dicht sind, wie dies durch eine kleine numerische Differenz zwischen aufeinander folgenden Schriftzeichenpositionen 24 in der hörbaren Abschnittsanalysetabelle 22 angezeigt wird, wird eine bevorzugte Ausführungsform einen der Abschnittspausen-Positionsmarker 25 löschen, um das Erstellen hörbarer Abschnitte 21 zu vermeiden, welche tatsächlich ungewöhnlich kurz sind, welche einen überaus kurzen hörbaren Abschnitt mit einem benachbarten hörbaren Abschnitt mischen. Am Ende des Eingangstextes 20 kann es auch notwendig sein, einen überaus kurzen hörbaren Schlussabschnitt mit dem sofort vorausgehenden hörbaren Abschnitt zu mischen.
Hörbare Abschnitte 21, welche anfangs zu lang sind, müssen auch durch Aufteilen in zwei oder mehrere kürzere hörbare Abschnitte angepasst werden. In einer bevorzugten Ausführungsform kann eine geeignete Schriftzeichenposition 24, in welcher ein derartiger Abschnittspausen-Positionsmarker 25 einzufügen ist, heuristisch bestimmt werden. Z. B. kann ein Pausenpositionsmarker 25 innerhalb eines allzu langen hörbaren Abschnittes 21 eingefügt werden, dort, wo eine Periode am Ende einer Zeile des Eingangstextes 20 auftritt, oder dort, wo eine gegebene Zeile des Eingabetextes 20 ein einzelnes Schriftzeichen beinhaltet.
Innerhalb eines aktiven hörbaren Abschnitts 21 einer bevorzugten Ausführungsform müssen individuelle Sätze 26 durch Einfü gen von Satzpausen-Positionsmarkern 27 an geeigneten Positionen des hörbaren Abschnittes 21 extrahiert werden. Für einen aktiven hörbaren Abschnitt 21 wird eine Satzanalysetabelle 28
ähnlich der hörbaren Abschnittsanalysetabelle 22 geschaffen. Die Satzanalysetabelle 28 bringt mit jedem Satz 26 eine Satzzahl 29 und eine Schriftzeichenposition 30 innerhalb des hörbaren Abschnittes 21 in Verbindung und markiert die Position eines Satzpausen-Positionsmarkers 27 am Ende des Satzes 26. In einer bevorzugten Ausführungsform wird die Satzanalysetabelle 28 während des Verarbeitens des Eingangstextes 20 dynamisch auf den neuesten Stand gebracht. Nach dem Benutzen kann die Satzanalysetabelle 28 entweder gelöscht werden oder sie kann optional für das Verarbeiten mannigfaltiger hörbarer Abschnitte 21 beibehalten werden.
Die Satzanalysetabelle 28 kann auch nützlicherweise zum Speichern verschiedener TTS-Lesegerät-Modus-Parameter 31 genutzt werden, welche mit jedem Satz 26 oder einer Position innerhalb des Satzes assoziiert sind, welcher z. B. durch das Zählen von Schriftzeichen identifiziert ist; z. B. Sprachschriftzeichenprofile – alter Mann, junges Mädchen, etc.; ebenso wie durch die Lautstärke, die Klangfarbe, die Geschwindigkeit, alternative Aussprachen für ein Wort, etc., eines Sprechers. Wenn der Nutzer die Stelle des TTS-Lesegerätes innerhalb des Textes verändert, wird das TTS-Lesegerät auf den neuesten Stand gebracht bzw. aktualisiert, um TTS-Parameter 31 bereitzustellen, basierend auf der neuen Stelle des TTS-Lesegerätes, wobei diese Parameterdaten vorher identifiziert und gespeichert wurden. Alternativ können derartige Daten dynamisch auf der Basis der neuen Position regeneriert werden.
Das Einfügen hörbarer Abschnittspausen-Positionsmarker, um den Texteingang, 1 in 1, in hörbare Abschnitte 3 zu trennen, erhöht signifikant die Kontrolle des Nutzers über das System. Der Nutzer kann einen natürlichen Sprachbefehl über das sprachgesteuerte Nutzer-Interface 5 liefern, um den letzten hörbaren Abschnitt 3 nochmals zu spielen, um nochmals eine wichtige Information zu hören, ohne das TTS-Lesegerät 4 am Beginn des Texteingangs 1 wieder gestartet zu haben. In ähnlicher Weise kann ein Nutzer leicht zum nächsten hörbaren Abschnitt 3 springen, wenn der gerade laufende hörbare Abschnitt uninteressant zu sein scheint. Durch das sequenzielle Hören auf die Anfänge der hörbaren Abschnitt 3 kann ein Nutzer tatsächlich die künstliche Sprachausgabe 6 hörend überfliegen, welche eine Texteingabe 1 wiedergibt. Eine derartige Möglichkeit des hörenden Überfliegens ist eine signifikante Verbesserung gegenüber dem Stand der Technik, welche einen Nutzer zwingt, jeden Text voll anzuhören, von Anfang an.
Zusätzlich, wie oben erwähnt, verwendet eine bevorzugte Ausführungsform ein mit natürlicher Stimme sprachgesteuertes Interface 5. Durch das Nutzen einer anwendungsspezifischen Grammatik, welche natürliche Sprachbefehle in Verbindung mit einer kontinuierlichen Sprach- bzw. Stimme-Erkennungsmaschine unterstützt, wird ein robustes und leistungsfähiges Steuer-Interface 5 geschaffen. Ein derartiges System stellt einen signifikannten Fortschritt im Stand der Technik gegenüber der begrenzten Vokabular-, isolierten Wortmodell-Spracherkennungsmaschine dar, welche vorher in einem derartigen sprachgesteuerten Interface benutzt wurde. Benutzer sind nicht mehr auf einfache menüartige Befehle, wie z. B. "abspielen", "Pause", "nächstes", etc., beschränkt, sondern können stattdessen das System für einen Konversationsdialog hernehmen und in vollen Sätzen sprechen, so wie sie dies mit einer lebenden Person tun würden.
In einem kontinuierlichen Spracherkennungs-Interface 5 mit natürlicher Stimme sprachgesteuert, so wie in dem, welches in einer bevorzugten Ausführungsform genutzt wird, wird die anfängliche Lernkurve des Benutzers reduziert, während der Grad des Vertrauens bei der Bedienung durch den Nutzer anwächst. Als Ergebnis des erhöhten Vertrauens des Nutzers und der signifikant größeren Leistung des Interfaces mit natürlicher Stimme bzw. Sprache können komplexere Verarbeitungsmerkmale dem System hinzugefügt werden, die der Nutzer besser effektiv nutzen kann.
Der Nutzer kann gesprochene Befehle in natürlicher Sprache liefern, in einer bevorzugten Ausführungsform, um Bearbeitungsvorgänge wie bei einem Keyboard-geführten E-Mail-Lesegeräteprogramm auszuführen, um zu lesen, zu antworten, weiterzuleiten, zu senden, zu löschen, etc.. Der Nutzer kann auch das Lesegerät mit natürlichen Sprachbefehlen führen, wie z. B. um den nächsten Satz zu lesen, den vorausgehenden Paragraphen bzw. Absatz zu wiederholen, diesen Abschnitt zu überspringen. Zusätzlich kann ein Nutzer durch Sprech- bzw. Spracheingabe eine Nachricht aufstellen, weiterleiten, beantworten oder senden. In einer Ausführungsform wird dies durch Aufzeichnen einer gesprochenen Nachricht wie bei einer gewöhnlichen Sprachsendung erreicht. Die aufgezeichnete Nachricht kann in ein WAV-kompatibles Format komprimiert werden und an die neu geschaffene E-Mail-Nachricht angehängt werden. Alternativ kann eine vorher festgelegte Schablone genutzt werden. Eine Schablone ist Text, auf welchen über ein Schlüsselwort Bezug genommen werden kann. Wenn eine E-Mail aufgestellt wird, wird der Nutzer veranlasst, ein Schablonen-Schlüsselwort zu geben, und der damit verbundene Text wird in die neu geschaffene Nachricht eingefügt. Derartige Schablonen können personifiziert werden. In einer bevorzugten Ausführungsform muss ein Nutzerprofil vor dem erstmaligen Nutzen des Systems erstellt werden. Das Nutzerprofil beinhaltet eine E-Mail-Account-ID (Identität), Passwort, Adressbuch, Schablonen und die bevorzugte Stimme, die zu sprechen und zu erkennen ist. Sobald das Nutzerprofil vervollständigt wurde, kann der Nutzer das System anrufen und sich einloggen, indem er eine Account-ID und ein Passwort liefert. Wenn einmal das Account-ID und das Passwort des Nutzers vom System bestätigt wurden, kann der Nutzer ein sprachgesteuertes Interface belegen, um die E-Mail-Nachrichten zu verarbeiten. Die Interaktion zwischen dem Nutzer und dem System wird durch volle Duplex-Dialoge in natürlicher Sprache bzw. mit natürlicher Stimme gesteuert. Das Aufschalten wird unterstützt, so dass der Nutzer nicht warten muss, bis das System das Sprechen beendet hat, sondern er kann unterbrechen, um eine neue Eingabe zu liefern.
Der Nutzer kann aufgrund des Datums, seit dem letzten Anruf, ungelesene Nachrichten, aufgrund der Adresse des Senders oder durch Suchen über ein Schlüsselwort das zu lesende E-Mail auswählen. Wenn einmal eine Nachricht ausgewählt ist, wird der Nachricht-Anfangs- bzw. Steuerblock verarbeitet, um relevante Steuerblockbereiche zu extrahieren. Zusätzlich ist vorgesehen, unsachgemäße bzw, unzulässige Wörter, wie z. B. Abkürzungen, Akronyme, Namen, E-Mail-Adressen, URLs, Datumsangaben, Emotikone, etc. zu bearbeiten. Ein derartiges Bearbeiten von Überschriften und das Verarbeiten von unzulässigen Wörtern wird allgemein im US-Patent 5,634,084 von Malsheen et al. beschrieben.

Claims

Text/Sprache-Umwandlungssystem, welches aufweist: einen Text-Analysealgorithmus (2) zum Empfangen einer Folge von Schriftzeichen, welche einen Eingangstext (1) darstellen, und Setzen von Markern, welche die Folge von Schriftzeichen in eine Folge von hörbaren Abschnitten (3) aufteilen; Lesegerät (4) zur Text/Sprache-Umwandlung, welches mit dem Text-Analysealgorithmus gekoppelt ist und welches einen führbaren Zeiger zum Identifizieren eines hörbaren Abschnitts besitzt, welchen das Lesegerät zur Text/Sprache-Umwandlung in künstliche Sprache (6) wandeln soll; und ein sprachgesteuertes Nutzer-Interface (5) in Kommunikation mit dem Lesegerät zur Text/Sprache-Umwandlung, welches einem Nutzer gestattet, den Zeiger auf einen gewünschten Marker zu richten.
Text/Sprache-Umwandlungssystem nach Anspruch 1, wobei der Text-Analysealgorithmus die Marker basierend auf Heuristik erstellt.
Text/Sprache-Umwandlungssystem nach Anspruch 1, wobei der Text-Analysealgorithmus die Marker basierend auf wenigstens einer vorher festgelegten Regel erstellt.
Text/Sprache-Umwandlungssystem nach Anspruch 3, wobei die wenigstens eine vorher festgelegte Regel das Auftreten im Eingabetext einer vorher festgelegten Folge von Schriftzeichen beinhaltet.
Text/Sprache-Umwandlungssystem nach Anspruch 3, wobei die wenigstens eine vorher festgelegte Regel das Auftreten ei ner vorher festgelegten Anzahl von Schriftzeichen im Eingangstext beinhaltet.
Text/Sprache-Umwandlungssystem nach Anspruch 5, wobei wenigstens eine Minimalanzahl von Schriftzeichen in dem Eingangstext zwischen benachbarten Markern auftreten muss.
Text/Sprache-Umwandlungssystem nach Anspruch 5, wobei höchstens eine maximale Anzahl von Schriftzeichen in dem Eingangstext zwischen benachbarten Markern auftreten darf.
Text/Sprache-Umwandlungssystem nach Anspruch 1, wobei der führbare Zeiger mit Parametern verknüpft ist, welche hörbare Charakteristika beschreiben, welche mit dem hörbaren Abschnitt verbunden sind, welcher durch den führbaren Zeiger identifiziert wird.
Verfahren zum Verarbeiten von Text in Sprache, welches aufweist: Empfangen einer Folge von Schriftzeichen in einem Text-Analysealgorithmus, welche einen Eingangstext darstellen, und Setzen von Markern, welche die Folge von Schriftzeichen in eine Folge von hörbaren Abschnitten aufteilen; Identifizieren eines hörbaren Abschnittes, welcher in eine künstliche Sprache über ein Lesegerät zur Text/Sprache-Umwandlung gewandelt werden soll, welches mit dem Text-Analysealgorithmus gekoppelt ist und welches einen führbaren Zeiger besitzt; und Gestatten, dass ein Nutzer den Zeiger auf einen gewünschten Marker richtet, über ein sprachgesteuertes Nutzer-Interface, welches mit dem Lesegerät zur Text/Sprache-Umwandlung in Kommunikation steht.
Verfahren nach Anspruch 9, wobei die Marker basierend auf Heuristik erstellt werden.
Verfahren nach Anspruch 9, wobei die Marker basierend auf wenigstens einer vorher festgelegten Regel erstellt werden.
Verfahren nach Anspruch 11, wobei die wenigstens eine vorher festgelegte Regel das Auftreten einer vorher festgelegten Folge von Schriftzeichen im Eingangstext beinhaltet.
Verfahren nach Anspruch 11, wobei die wenigstens eine vorher festgelegte Regel das Auftreten einer vorher festgelegten Anzahl von Schriftzeichen im Eingangstext beinhaltet.
Verfahren nach Anspruch 13, wobei wenigstens eine Minimalanzahl von Schriftzeichen im Eingangstext zwischen benachbarten Markern auftreten muss.
Verfahren nach Anspruch 13, wobei höchstens eine Maximalanzahl von Schriftzeichen im Eingangstext zwischen benachbarten Markern auftreten darf.
Verfahren nach Anspruch 9, wobei der führbare Zeiger mit Parametern verknüpft ist, welche die hörbare Charakteristik beschreiben, welche mit dem hörbaren Abschnitt verbunden ist, welcher durch den führbaren Zeiger identifiziert wird.