-
TECHNISCHER
BEREICH
-
Die vorliegende Erfindung bezieht
sich auf die Anwendung eines Text-zu-Sprache-Lesegerätes, welches
durch mit natürlicher
Stimme gesprochene Befehle über
ein sprachgesteuertes Interface geführt wird.
-
HINTERGRUND
DES FACHGEBIETS
-
Text-zu-Sprache-(TTS-)Umwandlungssysteme
wandeln eine Textquelle, z.B. E-Mail, in künstliche Stimme bzw. Sprache,
wie dies z.B. im US-Patent 5,634,084 von Malsheen et al. veröffentlicht
wird. Dies kann bequem sein, wenn auf eine Textquelle zugegriffen
werden kann, jedoch kehre Textanzeigevorrichtungen zur Verfügung stehen.
Ein gebräuchliches Beispiel
dieser Situation ist der Zugriff auf E-Mail-Nachrichten über Telefon
aus der Ferne. Ein derartiger Zugriff aus der Ferne auf E-Mail-Nachrichten
wurde zuvor in einer Weise ausgeführt, welche ähnlich für Zugriffssysteme
aus der Ferne für Sprach-Mail
sind, typischerweise durch Telefonnummer-Tastatur-Anschläge oder,
in modernen Systemen, durch isolierte Sprachworterkennung mit gesprochenen
Befehlen, wie z. B. "abspielen", "nächstes", "Pause", "löschen", etc..
-
Wenn man dem TTS-Lesen einer Textquelle, wie
z.B, einer E-Mail-Nachricht
zuhört,
kann ein Nutzer eines zuvor existierenden Systems durch die Probleme
beim Auseinandersetzen mit langen Texten frustriert sein. Es ist
jedoch möglich,
mit Systemen entsprechend dem Stand der Technik das Lesen einer
langen Nachricht zu stoppen und sich zur nächsten Nachricht zu begeben.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Eine bevorzugte Ausführungsform
der vorliegenden Erfindung liefert ein Text-zu-Sprache-Umwandlungssystem.
Ein derartiges System beinhaltet einen Textanalysealgorithmus zum
Empfangen einer Folge von Schriftzeichen, welche einen Eingangstext darstellen,
und erstellt Marker, welche die Schriftzeichenfolge in eine Folge
von hörbaren
Abschnitten unterteilt, ein Text/ Sprach-Umwandlungslesegerät, welches
mit dem Textanalysealgorithmus verbunden ist und welches einen fahrbaren
Zeiger zum Identifizieren eines hörbaren Abschnitts besitzt,
welchen das Text-zu-Sprache-Umwandlungslesegerät in künstliche Sprache umwandeln
soll, und ein sprachgesteuertes Nutzer-Interface, in Kommunikation
mit dem Text-zu-Sprache-Umwandlungslesegerät, welches einem Nutzer gestattet,
den Zeiger auf einen gewünschten
Marker zu richten.
-
In einer weiteren Ausführungsform
erstellt der Textanalysealgorithmus die Marker basierend auf Heuristik,
oder wenigstens basierend auf einer vorher festgelegten Regel. Die
wenigstens eine vorher festgelegte Regel kann das Auftreten einer
vorher festgelegten Folge von Schriftzeichen oder eine vorher festgelegte
Anzahl von Schriftzeichen im Eingabetext beinhalten. Es kann erforderlich
sein, dass eine Minimalanzahl von Schriftzeichen im Eingangstext
zwischen benachbarten Markern auftritt, oder es darf eine Maximalanzahl
von Textschriftzeichen im Eingangstext zwischen benachbarten Markern
auftreten, oder beides. Zusätzlich
kann der führbare
Zeiger mit Parametern verknüpft
sein, welche hörbare Charakteristika
beschreiben, welche mit dem hörbaren
Abschnitt verbunden sind, welcher durch den führbaren Zeiger identifiziert
wird.
-
Eine bevorzugte Ausführungsform
beinhaltet auch ein Verfahren zum Verarbeiten von Text in Sprache.
Ein derartiges Verfahren beinhaltet das Empfangen einer Folge von
Schriftzeichen in ei nem Textanalysealgorithmus, welche einen Eingangstext
darstellen, und das Erstellen von Markern, welche die Folge von
Schriftzeichen in eine Folge von hörbaren Abschnitten aufteilen,
das Identifizieren eines hörbaren Abschnitts,
welcher in eine künstliche
Sprache über ein
Text-zu-Sprache-Umwandlungslesegerät gewandelt werden soll, welches
mit dem Textanalysealgorithmus verbunden ist und welches einen führbaren Zeiger
besitzt, und das Gestatten, dass ein Nutzer den Zeiger auf einen
gewünschten
Marker richtet, über
ein sprachgesteuertes Nutzer-Interface, welches mit dem Text-zu-Sprache-Umwandlungslesegerät in Kommunikation
steht.
-
In einer weiteren Ausführungsform
werden die Marker basierend auf Heuristik erstellt, oder basierend
auf wenigstens einer vorher festgelegten Regel. Die wenigstens eine
vorher festgelegte Regel kann das Auftreten einer vorher festgelegten
Folge von Schriftzeichen im Eingangstext oder eine vorher festgelegte
Anzahl von Schriftzeichen beinhalten. Eine Minimalanzahl von Schriftzeichen
kann erforderlich sein, im Eingangstext zwischen benachbarten Markern
aufzutreten, oder eine Maximalanzahl von Schriftzeichen darf im
Eingangstext zwischen benachbarten Markern auftreten, oder beides.
Zusätzlich
kann der führbare
Zeiger mit Parametern verknüpft
sein, welche die hörbaren
Charakteristika beschreiben, welche mit dem hörbaren Abschnitt verbunden
sind, welcher durch den führbaren
Zeiger identifiziert wird.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Die vorliegende Erfindung kann schließlich besser
mit Bezug auf die folgende detaillierte Beschreibung verstanden
werden, welche zusammen mit den beigefügten Zeichnungen gegeben wird,
in welchen:
-
1 ein
Grund-Blockschaltbild eines sprachgeführten Textzu-Sprache-Umwandlungslesegerätes entsprechend
einer bevorzugten Ausführungsform
darstellt;
-
2 einen
Eingabetext darstellt, welcher in hörbare Abschnitte entsprechend
einer bevorzugten Ausführungsform
unterteilt ist.
-
DETAILLIERTE
BESCHREIBUNG SPEZIELLER AUSFÜHRUNGSFORMEN
-
Eine bevorzugte Ausführungsform
der vorliegenden Erfindung, wie sie in 1 gezeigt wird, nimmt eine Texteingabe 1,
welche eine Folge von Textschriftzeichen darstellt, und verarbeitet
sie in einem Textanalysealgorithmus 2, welcher Pausenpositionsmarker
erstellt, welche den Texteingang 1 in eine Folge von hörbaren Abschnitten 3 des
analysierten Textes aufteilt. Die hörbaren Abschnitte 3 werden in
ein Text-zu-Sprache-Umwandlungs-(TTS-)Lesegerät 4 eingegeben, welches über ein
sprachgesteuertes Nutzer-Interface 5 mit natürlicher
Stimme gesteuert wird. Das TTS-Lesegerät 4 gibt künstliche Stimme 6 an
den Benutzer aus. In einer typischen Anwendung ist die Texteingabe 1 eine
E-Mail-Nachricht zum Ausgeben an einen Systemnutzer über eine
Telefonleitung. Die hörbaren
Abschnitte 3 besitzen nahezu Absatzgröße, welche es dem Nutzer gestattet,
sich an einer bequemen Navigation innerhalb des Textes zu erfreuen,
so dass die Position der Lesegerät-Stimme
leicht an die gewünschten
Textstellen geführt
werden kann.
-
Wie in 2 gezeigt
wird, teilt eine bevorzugte Ausführungsform
den Eingangstext 20 in hörbare Abschnitte 21 auf,
welche nahezu die Größe von Paragraphen
bzw. Absätzen
besitzen. Eine hörbare
Abschnittsanalysetabelle 22 wird geschaffen, welche eine
Abschnittszahl 23 und eine Schriftzeichenposition 24 innerhalb
des Eingangstextes 20 mit jedem hörbaren Abschnitt 21 in
Verbindung bringt und welche die Position eines Abschnitts pausen-Positionsmarkers
25 am Ende des hörbaren
Abschnittes 21 markiert. Die Schriftzeichenposition 24 des Abschnittspausen-Positionsmarkers 25 wird
entsprechend dem Schriftzeichenzählen
und verschiedener Analyseregeln festgelegt. Z. B. kann ein Abschnittspausen-Positionsmarker 23 durch
zwei aufeinander folgende Leerzeilen, durch einen Zeilenrücklauf,
welcher von einem Großbuchstaben
gefolgt wird, oder durch ein Zahlwort, gefolgt durch eine Periode
und ein Leerzeichen geschaffen werden. Dort wo die Abschnittspausen-Positionsmarker 25 anfangs
relativ dicht sind, wie dies durch eine kleine numerische Differenz
zwischen aufeinander folgenden Schriftzeichenpositionen 24 in
der hörbaren
Abschnittsanalysetabelle 22 angezeigt wird, wird eine bevorzugte Ausführungsform
einen der Abschnittspausen-Positionsmarker 25 löschen, um
das Erstellen hörbarer
Abschnitte 21 zu vermeiden, welche tatsächlich ungewöhnlich kurz
sind, welche einen überaus
kurzen hörbaren
Abschnitt mit einem benachbarten hörbaren Abschnitt mischen. Am
Ende des Eingangstextes 20 kann es auch notwendig sein,
einen überaus
kurzen hörbaren
Schlussabschnitt mit dem sofort vorausgehenden hörbaren Abschnitt zu mischen.
-
Hörbare
Abschnitte 21, welche anfangs zu lang sind, müssen auch
durch Aufteilen in zwei oder mehrere kürzere hörbare Abschnitte angepasst
werden. In einer bevorzugten Ausführungsform kann eine geeignete
Schriftzeichenposition 24, in welcher ein derartiger Abschnittspausen-Positionsmarker
25 einzufügen
ist, heuristisch bestimmt werden. Z. B. kann ein Pausenpositionsmarker 25 innerhalb
eines allzu langen hörbaren
Abschnittes 21 eingefügt
werden, dort, wo eine Periode am Ende einer Zeile des Eingangstextes 20 auftritt,
oder dort, wo eine gegebene Zeile des Eingabetextes 20 ein
einzelnes Schriftzeichen beinhaltet.
-
Innerhalb eines aktiven hörbaren Abschnitts 21 einer
bevorzugten Ausführungsform
müssen
individuelle Sätze 26 durch
Einfü gen
von Satzpausen-Positionsmarkern 27 an geeigneten Positionen des
hörbaren
Abschnittes 21 extrahiert werden. Für einen aktiven hörbaren Abschnitt 21 wird
eine Satzanalysetabelle 28
-
ähnlich
der hörbaren
Abschnittsanalysetabelle 22 geschaffen. Die Satzanalysetabelle 28 bringt mit
jedem Satz 26 eine Satzzahl 29 und eine Schriftzeichenposition 30 innerhalb
des hörbaren
Abschnittes 21 in Verbindung und markiert die Position
eines Satzpausen-Positionsmarkers 27 am Ende des Satzes 26.
In einer bevorzugten Ausführungsform
wird die Satzanalysetabelle 28 während des Verarbeitens des
Eingangstextes 20 dynamisch auf den neuesten Stand gebracht.
Nach dem Benutzen kann die Satzanalysetabelle 28 entweder
gelöscht
werden oder sie kann optional für
das Verarbeiten mannigfaltiger hörbarer
Abschnitte 21 beibehalten werden.
-
Die Satzanalysetabelle 28 kann
auch nützlicherweise
zum Speichern verschiedener TTS-Lesegerät-Modus-Parameter 31 genutzt
werden, welche mit jedem Satz 26 oder einer Position innerhalb
des Satzes assoziiert sind, welcher z. B. durch das Zählen von
Schriftzeichen identifiziert ist; z. B. Sprachschriftzeichenprofile – alter
Mann, junges Mädchen, etc.;
ebenso wie durch die Lautstärke,
die Klangfarbe, die Geschwindigkeit, alternative Aussprachen für ein Wort,
etc., eines Sprechers. Wenn der Nutzer die Stelle des TTS-Lesegerätes innerhalb
des Textes verändert,
wird das TTS-Lesegerät
auf den neuesten Stand gebracht bzw. aktualisiert, um TTS-Parameter 31 bereitzustellen,
basierend auf der neuen Stelle des TTS-Lesegerätes, wobei diese Parameterdaten vorher
identifiziert und gespeichert wurden. Alternativ können derartige
Daten dynamisch auf der Basis der neuen Position regeneriert werden.
-
Das Einfügen hörbarer Abschnittspausen-Positionsmarker,
um den Texteingang, 1 in 1,
in hörbare
Abschnitte 3 zu trennen, erhöht signifikant die Kontrolle
des Nutzers über
das System. Der Nutzer kann einen natürlichen Sprachbefehl über das sprachgesteuerte
Nutzer-Interface 5 liefern, um den letzten hörbaren Abschnitt 3 nochmals
zu spielen, um nochmals eine wichtige Information zu hören, ohne
das TTS-Lesegerät
4 am Beginn des Texteingangs 1 wieder gestartet zu haben.
In ähnlicher
Weise kann ein Nutzer leicht zum nächsten hörbaren Abschnitt 3 springen,
wenn der gerade laufende hörbare Abschnitt
uninteressant zu sein scheint. Durch das sequenzielle Hören auf
die Anfänge
der hörbaren
Abschnitt 3 kann ein Nutzer tatsächlich die künstliche Sprachausgabe 6 hörend überfliegen,
welche eine Texteingabe 1 wiedergibt. Eine derartige Möglichkeit des
hörenden Überfliegens
ist eine signifikante Verbesserung gegenüber dem Stand der Technik,
welche einen Nutzer zwingt, jeden Text voll anzuhören, von
Anfang an.
-
Zusätzlich, wie oben erwähnt, verwendet eine
bevorzugte Ausführungsform
ein mit natürlicher Stimme
sprachgesteuertes Interface 5. Durch das Nutzen einer anwendungsspezifischen
Grammatik, welche natürliche
Sprachbefehle in Verbindung mit einer kontinuierlichen Sprach- bzw.
Stimme-Erkennungsmaschine unterstützt, wird ein robustes und leistungsfähiges Steuer-Interface 5 geschaffen.
Ein derartiges System stellt einen signifikannten Fortschritt im
Stand der Technik gegenüber
der begrenzten Vokabular-, isolierten Wortmodell-Spracherkennungsmaschine
dar, welche vorher in einem derartigen sprachgesteuerten Interface
benutzt wurde. Benutzer sind nicht mehr auf einfache menüartige Befehle,
wie z. B. "abspielen", "Pause", "nächstes", etc., beschränkt, sondern können stattdessen
das System für
einen Konversationsdialog hernehmen und in vollen Sätzen sprechen,
so wie sie dies mit einer lebenden Person tun würden.
-
In einem kontinuierlichen Spracherkennungs-Interface 5 mit
natürlicher
Stimme sprachgesteuert, so wie in dem, welches in einer bevorzugten Ausführungsform
genutzt wird, wird die anfängliche Lernkurve
des Benutzers reduziert, während
der Grad des Vertrauens bei der Bedienung durch den Nutzer anwächst. Als
Ergebnis des erhöhten
Vertrauens des Nutzers und der signifikant größeren Leistung des Interfaces
mit natürlicher
Stimme bzw. Sprache können
komplexere Verarbeitungsmerkmale dem System hinzugefügt werden,
die der Nutzer besser effektiv nutzen kann.
-
Der Nutzer kann gesprochene Befehle
in natürlicher
Sprache liefern, in einer bevorzugten Ausführungsform, um Bearbeitungsvorgänge wie
bei einem Keyboard-geführten
E-Mail-Lesegeräteprogramm
auszuführen,
um zu lesen, zu antworten, weiterzuleiten, zu senden, zu löschen, etc..
Der Nutzer kann auch das Lesegerät
mit natürlichen
Sprachbefehlen führen,
wie z. B. um den nächsten
Satz zu lesen, den vorausgehenden Paragraphen bzw. Absatz zu wiederholen,
diesen Abschnitt zu überspringen. Zusätzlich kann
ein Nutzer durch Sprech- bzw. Spracheingabe eine Nachricht aufstellen,
weiterleiten, beantworten oder senden. In einer Ausführungsform wird
dies durch Aufzeichnen einer gesprochenen Nachricht wie bei einer
gewöhnlichen
Sprachsendung erreicht. Die aufgezeichnete Nachricht kann in ein
WAV-kompatibles Format komprimiert werden und an die neu geschaffene
E-Mail-Nachricht angehängt
werden. Alternativ kann eine vorher festgelegte Schablone genutzt
werden. Eine Schablone ist Text, auf welchen über ein Schlüsselwort
Bezug genommen werden kann. Wenn eine E-Mail aufgestellt wird, wird
der Nutzer veranlasst, ein Schablonen-Schlüsselwort zu geben, und der
damit verbundene Text wird in die neu geschaffene Nachricht eingefügt. Derartige
Schablonen können
personifiziert werden. In einer bevorzugten Ausführungsform muss ein Nutzerprofil
vor dem erstmaligen Nutzen des Systems erstellt werden. Das Nutzerprofil
beinhaltet eine E-Mail-Account-ID (Identität), Passwort, Adressbuch, Schablonen
und die bevorzugte Stimme, die zu sprechen und zu erkennen ist.
Sobald das Nutzerprofil vervollständigt wurde, kann der Nutzer
das System anrufen und sich einloggen, indem er eine Account-ID
und ein Passwort liefert. Wenn einmal das Account-ID und das Passwort
des Nutzers vom System bestätigt
wurden, kann der Nutzer ein sprachgesteuertes Interface belegen,
um die E-Mail-Nachrichten zu verarbeiten. Die Interaktion zwischen
dem Nutzer und dem System wird durch volle Duplex-Dialoge in natürlicher
Sprache bzw. mit natürlicher
Stimme gesteuert. Das Aufschalten wird unterstützt, so dass der Nutzer nicht
warten muss, bis das System das Sprechen beendet hat, sondern er
kann unterbrechen, um eine neue Eingabe zu liefern.
-
Der Nutzer kann aufgrund des Datums,
seit dem letzten Anruf, ungelesene Nachrichten, aufgrund der Adresse
des Senders oder durch Suchen über
ein Schlüsselwort
das zu lesende E-Mail auswählen.
Wenn einmal eine Nachricht ausgewählt ist, wird der Nachricht-Anfangs-
bzw. Steuerblock verarbeitet, um relevante Steuerblockbereiche zu
extrahieren. Zusätzlich
ist vorgesehen, unsachgemäße bzw,
unzulässige
Wörter,
wie z. B. Abkürzungen, Akronyme,
Namen, E-Mail-Adressen, URLs, Datumsangaben, Emotikone, etc. zu
bearbeiten. Ein derartiges Bearbeiten von Überschriften und das Verarbeiten
von unzulässigen
Wörtern
wird allgemein im US-Patent 5,634,084 von Malsheen et al. beschrieben.