DE69910412T2 - Sprachgesteuerte navigation für einen elektronischen post leser - Google Patents

Sprachgesteuerte navigation für einen elektronischen post leser Download PDF

Info

Publication number
DE69910412T2
DE69910412T2 DE69910412T DE69910412T DE69910412T2 DE 69910412 T2 DE69910412 T2 DE 69910412T2 DE 69910412 T DE69910412 T DE 69910412T DE 69910412 T DE69910412 T DE 69910412T DE 69910412 T2 DE69910412 T2 DE 69910412T2
Authority
DE
Germany
Prior art keywords
text
characters
audible
markers
speech conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69910412T
Other languages
English (en)
Other versions
DE69910412D1 (de
Inventor
Luc Van Tichelen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lernout and Hauspie Speech Products NV
Original Assignee
Lernout and Hauspie Speech Products NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lernout and Hauspie Speech Products NV filed Critical Lernout and Hauspie Speech Products NV
Publication of DE69910412D1 publication Critical patent/DE69910412D1/de
Application granted granted Critical
Publication of DE69910412T2 publication Critical patent/DE69910412T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals

Description

  • TECHNISCHER BEREICH
  • Die vorliegende Erfindung bezieht sich auf die Anwendung eines Text-zu-Sprache-Lesegerätes, welches durch mit natürlicher Stimme gesprochene Befehle über ein sprachgesteuertes Interface geführt wird.
  • HINTERGRUND DES FACHGEBIETS
  • Text-zu-Sprache-(TTS-)Umwandlungssysteme wandeln eine Textquelle, z.B. E-Mail, in künstliche Stimme bzw. Sprache, wie dies z.B. im US-Patent 5,634,084 von Malsheen et al. veröffentlicht wird. Dies kann bequem sein, wenn auf eine Textquelle zugegriffen werden kann, jedoch kehre Textanzeigevorrichtungen zur Verfügung stehen. Ein gebräuchliches Beispiel dieser Situation ist der Zugriff auf E-Mail-Nachrichten über Telefon aus der Ferne. Ein derartiger Zugriff aus der Ferne auf E-Mail-Nachrichten wurde zuvor in einer Weise ausgeführt, welche ähnlich für Zugriffssysteme aus der Ferne für Sprach-Mail sind, typischerweise durch Telefonnummer-Tastatur-Anschläge oder, in modernen Systemen, durch isolierte Sprachworterkennung mit gesprochenen Befehlen, wie z. B. "abspielen", "nächstes", "Pause", "löschen", etc..
  • Wenn man dem TTS-Lesen einer Textquelle, wie z.B, einer E-Mail-Nachricht zuhört, kann ein Nutzer eines zuvor existierenden Systems durch die Probleme beim Auseinandersetzen mit langen Texten frustriert sein. Es ist jedoch möglich, mit Systemen entsprechend dem Stand der Technik das Lesen einer langen Nachricht zu stoppen und sich zur nächsten Nachricht zu begeben.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Eine bevorzugte Ausführungsform der vorliegenden Erfindung liefert ein Text-zu-Sprache-Umwandlungssystem. Ein derartiges System beinhaltet einen Textanalysealgorithmus zum Empfangen einer Folge von Schriftzeichen, welche einen Eingangstext darstellen, und erstellt Marker, welche die Schriftzeichenfolge in eine Folge von hörbaren Abschnitten unterteilt, ein Text/ Sprach-Umwandlungslesegerät, welches mit dem Textanalysealgorithmus verbunden ist und welches einen fahrbaren Zeiger zum Identifizieren eines hörbaren Abschnitts besitzt, welchen das Text-zu-Sprache-Umwandlungslesegerät in künstliche Sprache umwandeln soll, und ein sprachgesteuertes Nutzer-Interface, in Kommunikation mit dem Text-zu-Sprache-Umwandlungslesegerät, welches einem Nutzer gestattet, den Zeiger auf einen gewünschten Marker zu richten.
  • In einer weiteren Ausführungsform erstellt der Textanalysealgorithmus die Marker basierend auf Heuristik, oder wenigstens basierend auf einer vorher festgelegten Regel. Die wenigstens eine vorher festgelegte Regel kann das Auftreten einer vorher festgelegten Folge von Schriftzeichen oder eine vorher festgelegte Anzahl von Schriftzeichen im Eingabetext beinhalten. Es kann erforderlich sein, dass eine Minimalanzahl von Schriftzeichen im Eingangstext zwischen benachbarten Markern auftritt, oder es darf eine Maximalanzahl von Textschriftzeichen im Eingangstext zwischen benachbarten Markern auftreten, oder beides. Zusätzlich kann der führbare Zeiger mit Parametern verknüpft sein, welche hörbare Charakteristika beschreiben, welche mit dem hörbaren Abschnitt verbunden sind, welcher durch den führbaren Zeiger identifiziert wird.
  • Eine bevorzugte Ausführungsform beinhaltet auch ein Verfahren zum Verarbeiten von Text in Sprache. Ein derartiges Verfahren beinhaltet das Empfangen einer Folge von Schriftzeichen in ei nem Textanalysealgorithmus, welche einen Eingangstext darstellen, und das Erstellen von Markern, welche die Folge von Schriftzeichen in eine Folge von hörbaren Abschnitten aufteilen, das Identifizieren eines hörbaren Abschnitts, welcher in eine künstliche Sprache über ein Text-zu-Sprache-Umwandlungslesegerät gewandelt werden soll, welches mit dem Textanalysealgorithmus verbunden ist und welches einen führbaren Zeiger besitzt, und das Gestatten, dass ein Nutzer den Zeiger auf einen gewünschten Marker richtet, über ein sprachgesteuertes Nutzer-Interface, welches mit dem Text-zu-Sprache-Umwandlungslesegerät in Kommunikation steht.
  • In einer weiteren Ausführungsform werden die Marker basierend auf Heuristik erstellt, oder basierend auf wenigstens einer vorher festgelegten Regel. Die wenigstens eine vorher festgelegte Regel kann das Auftreten einer vorher festgelegten Folge von Schriftzeichen im Eingangstext oder eine vorher festgelegte Anzahl von Schriftzeichen beinhalten. Eine Minimalanzahl von Schriftzeichen kann erforderlich sein, im Eingangstext zwischen benachbarten Markern aufzutreten, oder eine Maximalanzahl von Schriftzeichen darf im Eingangstext zwischen benachbarten Markern auftreten, oder beides. Zusätzlich kann der führbare Zeiger mit Parametern verknüpft sein, welche die hörbaren Charakteristika beschreiben, welche mit dem hörbaren Abschnitt verbunden sind, welcher durch den führbaren Zeiger identifiziert wird.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die vorliegende Erfindung kann schließlich besser mit Bezug auf die folgende detaillierte Beschreibung verstanden werden, welche zusammen mit den beigefügten Zeichnungen gegeben wird, in welchen:
  • 1 ein Grund-Blockschaltbild eines sprachgeführten Textzu-Sprache-Umwandlungslesegerätes entsprechend einer bevorzugten Ausführungsform darstellt;
  • 2 einen Eingabetext darstellt, welcher in hörbare Abschnitte entsprechend einer bevorzugten Ausführungsform unterteilt ist.
  • DETAILLIERTE BESCHREIBUNG SPEZIELLER AUSFÜHRUNGSFORMEN
  • Eine bevorzugte Ausführungsform der vorliegenden Erfindung, wie sie in 1 gezeigt wird, nimmt eine Texteingabe 1, welche eine Folge von Textschriftzeichen darstellt, und verarbeitet sie in einem Textanalysealgorithmus 2, welcher Pausenpositionsmarker erstellt, welche den Texteingang 1 in eine Folge von hörbaren Abschnitten 3 des analysierten Textes aufteilt. Die hörbaren Abschnitte 3 werden in ein Text-zu-Sprache-Umwandlungs-(TTS-)Lesegerät 4 eingegeben, welches über ein sprachgesteuertes Nutzer-Interface 5 mit natürlicher Stimme gesteuert wird. Das TTS-Lesegerät 4 gibt künstliche Stimme 6 an den Benutzer aus. In einer typischen Anwendung ist die Texteingabe 1 eine E-Mail-Nachricht zum Ausgeben an einen Systemnutzer über eine Telefonleitung. Die hörbaren Abschnitte 3 besitzen nahezu Absatzgröße, welche es dem Nutzer gestattet, sich an einer bequemen Navigation innerhalb des Textes zu erfreuen, so dass die Position der Lesegerät-Stimme leicht an die gewünschten Textstellen geführt werden kann.
  • Wie in 2 gezeigt wird, teilt eine bevorzugte Ausführungsform den Eingangstext 20 in hörbare Abschnitte 21 auf, welche nahezu die Größe von Paragraphen bzw. Absätzen besitzen. Eine hörbare Abschnittsanalysetabelle 22 wird geschaffen, welche eine Abschnittszahl 23 und eine Schriftzeichenposition 24 innerhalb des Eingangstextes 20 mit jedem hörbaren Abschnitt 21 in Verbindung bringt und welche die Position eines Abschnitts pausen-Positionsmarkers 25 am Ende des hörbaren Abschnittes 21 markiert. Die Schriftzeichenposition 24 des Abschnittspausen-Positionsmarkers 25 wird entsprechend dem Schriftzeichenzählen und verschiedener Analyseregeln festgelegt. Z. B. kann ein Abschnittspausen-Positionsmarker 23 durch zwei aufeinander folgende Leerzeilen, durch einen Zeilenrücklauf, welcher von einem Großbuchstaben gefolgt wird, oder durch ein Zahlwort, gefolgt durch eine Periode und ein Leerzeichen geschaffen werden. Dort wo die Abschnittspausen-Positionsmarker 25 anfangs relativ dicht sind, wie dies durch eine kleine numerische Differenz zwischen aufeinander folgenden Schriftzeichenpositionen 24 in der hörbaren Abschnittsanalysetabelle 22 angezeigt wird, wird eine bevorzugte Ausführungsform einen der Abschnittspausen-Positionsmarker 25 löschen, um das Erstellen hörbarer Abschnitte 21 zu vermeiden, welche tatsächlich ungewöhnlich kurz sind, welche einen überaus kurzen hörbaren Abschnitt mit einem benachbarten hörbaren Abschnitt mischen. Am Ende des Eingangstextes 20 kann es auch notwendig sein, einen überaus kurzen hörbaren Schlussabschnitt mit dem sofort vorausgehenden hörbaren Abschnitt zu mischen.
  • Hörbare Abschnitte 21, welche anfangs zu lang sind, müssen auch durch Aufteilen in zwei oder mehrere kürzere hörbare Abschnitte angepasst werden. In einer bevorzugten Ausführungsform kann eine geeignete Schriftzeichenposition 24, in welcher ein derartiger Abschnittspausen-Positionsmarker 25 einzufügen ist, heuristisch bestimmt werden. Z. B. kann ein Pausenpositionsmarker 25 innerhalb eines allzu langen hörbaren Abschnittes 21 eingefügt werden, dort, wo eine Periode am Ende einer Zeile des Eingangstextes 20 auftritt, oder dort, wo eine gegebene Zeile des Eingabetextes 20 ein einzelnes Schriftzeichen beinhaltet.
  • Innerhalb eines aktiven hörbaren Abschnitts 21 einer bevorzugten Ausführungsform müssen individuelle Sätze 26 durch Einfü gen von Satzpausen-Positionsmarkern 27 an geeigneten Positionen des hörbaren Abschnittes 21 extrahiert werden. Für einen aktiven hörbaren Abschnitt 21 wird eine Satzanalysetabelle 28
  • ähnlich der hörbaren Abschnittsanalysetabelle 22 geschaffen. Die Satzanalysetabelle 28 bringt mit jedem Satz 26 eine Satzzahl 29 und eine Schriftzeichenposition 30 innerhalb des hörbaren Abschnittes 21 in Verbindung und markiert die Position eines Satzpausen-Positionsmarkers 27 am Ende des Satzes 26. In einer bevorzugten Ausführungsform wird die Satzanalysetabelle 28 während des Verarbeitens des Eingangstextes 20 dynamisch auf den neuesten Stand gebracht. Nach dem Benutzen kann die Satzanalysetabelle 28 entweder gelöscht werden oder sie kann optional für das Verarbeiten mannigfaltiger hörbarer Abschnitte 21 beibehalten werden.
  • Die Satzanalysetabelle 28 kann auch nützlicherweise zum Speichern verschiedener TTS-Lesegerät-Modus-Parameter 31 genutzt werden, welche mit jedem Satz 26 oder einer Position innerhalb des Satzes assoziiert sind, welcher z. B. durch das Zählen von Schriftzeichen identifiziert ist; z. B. Sprachschriftzeichenprofile – alter Mann, junges Mädchen, etc.; ebenso wie durch die Lautstärke, die Klangfarbe, die Geschwindigkeit, alternative Aussprachen für ein Wort, etc., eines Sprechers. Wenn der Nutzer die Stelle des TTS-Lesegerätes innerhalb des Textes verändert, wird das TTS-Lesegerät auf den neuesten Stand gebracht bzw. aktualisiert, um TTS-Parameter 31 bereitzustellen, basierend auf der neuen Stelle des TTS-Lesegerätes, wobei diese Parameterdaten vorher identifiziert und gespeichert wurden. Alternativ können derartige Daten dynamisch auf der Basis der neuen Position regeneriert werden.
  • Das Einfügen hörbarer Abschnittspausen-Positionsmarker, um den Texteingang, 1 in 1, in hörbare Abschnitte 3 zu trennen, erhöht signifikant die Kontrolle des Nutzers über das System. Der Nutzer kann einen natürlichen Sprachbefehl über das sprachgesteuerte Nutzer-Interface 5 liefern, um den letzten hörbaren Abschnitt 3 nochmals zu spielen, um nochmals eine wichtige Information zu hören, ohne das TTS-Lesegerät 4 am Beginn des Texteingangs 1 wieder gestartet zu haben. In ähnlicher Weise kann ein Nutzer leicht zum nächsten hörbaren Abschnitt 3 springen, wenn der gerade laufende hörbare Abschnitt uninteressant zu sein scheint. Durch das sequenzielle Hören auf die Anfänge der hörbaren Abschnitt 3 kann ein Nutzer tatsächlich die künstliche Sprachausgabe 6 hörend überfliegen, welche eine Texteingabe 1 wiedergibt. Eine derartige Möglichkeit des hörenden Überfliegens ist eine signifikante Verbesserung gegenüber dem Stand der Technik, welche einen Nutzer zwingt, jeden Text voll anzuhören, von Anfang an.
  • Zusätzlich, wie oben erwähnt, verwendet eine bevorzugte Ausführungsform ein mit natürlicher Stimme sprachgesteuertes Interface 5. Durch das Nutzen einer anwendungsspezifischen Grammatik, welche natürliche Sprachbefehle in Verbindung mit einer kontinuierlichen Sprach- bzw. Stimme-Erkennungsmaschine unterstützt, wird ein robustes und leistungsfähiges Steuer-Interface 5 geschaffen. Ein derartiges System stellt einen signifikannten Fortschritt im Stand der Technik gegenüber der begrenzten Vokabular-, isolierten Wortmodell-Spracherkennungsmaschine dar, welche vorher in einem derartigen sprachgesteuerten Interface benutzt wurde. Benutzer sind nicht mehr auf einfache menüartige Befehle, wie z. B. "abspielen", "Pause", "nächstes", etc., beschränkt, sondern können stattdessen das System für einen Konversationsdialog hernehmen und in vollen Sätzen sprechen, so wie sie dies mit einer lebenden Person tun würden.
  • In einem kontinuierlichen Spracherkennungs-Interface 5 mit natürlicher Stimme sprachgesteuert, so wie in dem, welches in einer bevorzugten Ausführungsform genutzt wird, wird die anfängliche Lernkurve des Benutzers reduziert, während der Grad des Vertrauens bei der Bedienung durch den Nutzer anwächst. Als Ergebnis des erhöhten Vertrauens des Nutzers und der signifikant größeren Leistung des Interfaces mit natürlicher Stimme bzw. Sprache können komplexere Verarbeitungsmerkmale dem System hinzugefügt werden, die der Nutzer besser effektiv nutzen kann.
  • Der Nutzer kann gesprochene Befehle in natürlicher Sprache liefern, in einer bevorzugten Ausführungsform, um Bearbeitungsvorgänge wie bei einem Keyboard-geführten E-Mail-Lesegeräteprogramm auszuführen, um zu lesen, zu antworten, weiterzuleiten, zu senden, zu löschen, etc.. Der Nutzer kann auch das Lesegerät mit natürlichen Sprachbefehlen führen, wie z. B. um den nächsten Satz zu lesen, den vorausgehenden Paragraphen bzw. Absatz zu wiederholen, diesen Abschnitt zu überspringen. Zusätzlich kann ein Nutzer durch Sprech- bzw. Spracheingabe eine Nachricht aufstellen, weiterleiten, beantworten oder senden. In einer Ausführungsform wird dies durch Aufzeichnen einer gesprochenen Nachricht wie bei einer gewöhnlichen Sprachsendung erreicht. Die aufgezeichnete Nachricht kann in ein WAV-kompatibles Format komprimiert werden und an die neu geschaffene E-Mail-Nachricht angehängt werden. Alternativ kann eine vorher festgelegte Schablone genutzt werden. Eine Schablone ist Text, auf welchen über ein Schlüsselwort Bezug genommen werden kann. Wenn eine E-Mail aufgestellt wird, wird der Nutzer veranlasst, ein Schablonen-Schlüsselwort zu geben, und der damit verbundene Text wird in die neu geschaffene Nachricht eingefügt. Derartige Schablonen können personifiziert werden. In einer bevorzugten Ausführungsform muss ein Nutzerprofil vor dem erstmaligen Nutzen des Systems erstellt werden. Das Nutzerprofil beinhaltet eine E-Mail-Account-ID (Identität), Passwort, Adressbuch, Schablonen und die bevorzugte Stimme, die zu sprechen und zu erkennen ist. Sobald das Nutzerprofil vervollständigt wurde, kann der Nutzer das System anrufen und sich einloggen, indem er eine Account-ID und ein Passwort liefert. Wenn einmal das Account-ID und das Passwort des Nutzers vom System bestätigt wurden, kann der Nutzer ein sprachgesteuertes Interface belegen, um die E-Mail-Nachrichten zu verarbeiten. Die Interaktion zwischen dem Nutzer und dem System wird durch volle Duplex-Dialoge in natürlicher Sprache bzw. mit natürlicher Stimme gesteuert. Das Aufschalten wird unterstützt, so dass der Nutzer nicht warten muss, bis das System das Sprechen beendet hat, sondern er kann unterbrechen, um eine neue Eingabe zu liefern.
  • Der Nutzer kann aufgrund des Datums, seit dem letzten Anruf, ungelesene Nachrichten, aufgrund der Adresse des Senders oder durch Suchen über ein Schlüsselwort das zu lesende E-Mail auswählen. Wenn einmal eine Nachricht ausgewählt ist, wird der Nachricht-Anfangs- bzw. Steuerblock verarbeitet, um relevante Steuerblockbereiche zu extrahieren. Zusätzlich ist vorgesehen, unsachgemäße bzw, unzulässige Wörter, wie z. B. Abkürzungen, Akronyme, Namen, E-Mail-Adressen, URLs, Datumsangaben, Emotikone, etc. zu bearbeiten. Ein derartiges Bearbeiten von Überschriften und das Verarbeiten von unzulässigen Wörtern wird allgemein im US-Patent 5,634,084 von Malsheen et al. beschrieben.

Claims (16)

  1. Text/Sprache-Umwandlungssystem, welches aufweist: einen Text-Analysealgorithmus (2) zum Empfangen einer Folge von Schriftzeichen, welche einen Eingangstext (1) darstellen, und Setzen von Markern, welche die Folge von Schriftzeichen in eine Folge von hörbaren Abschnitten (3) aufteilen; Lesegerät (4) zur Text/Sprache-Umwandlung, welches mit dem Text-Analysealgorithmus gekoppelt ist und welches einen führbaren Zeiger zum Identifizieren eines hörbaren Abschnitts besitzt, welchen das Lesegerät zur Text/Sprache-Umwandlung in künstliche Sprache (6) wandeln soll; und ein sprachgesteuertes Nutzer-Interface (5) in Kommunikation mit dem Lesegerät zur Text/Sprache-Umwandlung, welches einem Nutzer gestattet, den Zeiger auf einen gewünschten Marker zu richten.
  2. Text/Sprache-Umwandlungssystem nach Anspruch 1, wobei der Text-Analysealgorithmus die Marker basierend auf Heuristik erstellt.
  3. Text/Sprache-Umwandlungssystem nach Anspruch 1, wobei der Text-Analysealgorithmus die Marker basierend auf wenigstens einer vorher festgelegten Regel erstellt.
  4. Text/Sprache-Umwandlungssystem nach Anspruch 3, wobei die wenigstens eine vorher festgelegte Regel das Auftreten im Eingabetext einer vorher festgelegten Folge von Schriftzeichen beinhaltet.
  5. Text/Sprache-Umwandlungssystem nach Anspruch 3, wobei die wenigstens eine vorher festgelegte Regel das Auftreten ei ner vorher festgelegten Anzahl von Schriftzeichen im Eingangstext beinhaltet.
  6. Text/Sprache-Umwandlungssystem nach Anspruch 5, wobei wenigstens eine Minimalanzahl von Schriftzeichen in dem Eingangstext zwischen benachbarten Markern auftreten muss.
  7. Text/Sprache-Umwandlungssystem nach Anspruch 5, wobei höchstens eine maximale Anzahl von Schriftzeichen in dem Eingangstext zwischen benachbarten Markern auftreten darf.
  8. Text/Sprache-Umwandlungssystem nach Anspruch 1, wobei der führbare Zeiger mit Parametern verknüpft ist, welche hörbare Charakteristika beschreiben, welche mit dem hörbaren Abschnitt verbunden sind, welcher durch den führbaren Zeiger identifiziert wird.
  9. Verfahren zum Verarbeiten von Text in Sprache, welches aufweist: Empfangen einer Folge von Schriftzeichen in einem Text-Analysealgorithmus, welche einen Eingangstext darstellen, und Setzen von Markern, welche die Folge von Schriftzeichen in eine Folge von hörbaren Abschnitten aufteilen; Identifizieren eines hörbaren Abschnittes, welcher in eine künstliche Sprache über ein Lesegerät zur Text/Sprache-Umwandlung gewandelt werden soll, welches mit dem Text-Analysealgorithmus gekoppelt ist und welches einen führbaren Zeiger besitzt; und Gestatten, dass ein Nutzer den Zeiger auf einen gewünschten Marker richtet, über ein sprachgesteuertes Nutzer-Interface, welches mit dem Lesegerät zur Text/Sprache-Umwandlung in Kommunikation steht.
  10. Verfahren nach Anspruch 9, wobei die Marker basierend auf Heuristik erstellt werden.
  11. Verfahren nach Anspruch 9, wobei die Marker basierend auf wenigstens einer vorher festgelegten Regel erstellt werden.
  12. Verfahren nach Anspruch 11, wobei die wenigstens eine vorher festgelegte Regel das Auftreten einer vorher festgelegten Folge von Schriftzeichen im Eingangstext beinhaltet.
  13. Verfahren nach Anspruch 11, wobei die wenigstens eine vorher festgelegte Regel das Auftreten einer vorher festgelegten Anzahl von Schriftzeichen im Eingangstext beinhaltet.
  14. Verfahren nach Anspruch 13, wobei wenigstens eine Minimalanzahl von Schriftzeichen im Eingangstext zwischen benachbarten Markern auftreten muss.
  15. Verfahren nach Anspruch 13, wobei höchstens eine Maximalanzahl von Schriftzeichen im Eingangstext zwischen benachbarten Markern auftreten darf.
  16. Verfahren nach Anspruch 9, wobei der führbare Zeiger mit Parametern verknüpft ist, welche die hörbare Charakteristik beschreiben, welche mit dem hörbaren Abschnitt verbunden ist, welcher durch den führbaren Zeiger identifiziert wird.
DE69910412T 1998-09-30 1999-09-30 Sprachgesteuerte navigation für einen elektronischen post leser Expired - Lifetime DE69910412T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10247298P 1998-09-30 1998-09-30
US102472P 1998-09-30
PCT/IB1999/001689 WO2000019408A1 (en) 1998-09-30 1999-09-30 Voice command navigation of electronic mail reader

Publications (2)

Publication Number Publication Date
DE69910412D1 DE69910412D1 (de) 2003-09-18
DE69910412T2 true DE69910412T2 (de) 2004-06-24

Family

ID=22290038

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69910412T Expired - Lifetime DE69910412T2 (de) 1998-09-30 1999-09-30 Sprachgesteuerte navigation für einen elektronischen post leser

Country Status (6)

Country Link
EP (1) EP1116217B1 (de)
AT (1) ATE247325T1 (de)
AU (1) AU6116499A (de)
CA (1) CA2349564A1 (de)
DE (1) DE69910412T2 (de)
WO (1) WO2000019408A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2357943B (en) 1999-12-30 2004-12-08 Nokia Mobile Phones Ltd User interface for text to speech conversion
JP2001358602A (ja) 2000-06-14 2001-12-26 Nec Corp 文字情報受信装置
US7366979B2 (en) * 2001-03-09 2008-04-29 Copernicus Investments, Llc Method and apparatus for annotating a document
EP1738277A1 (de) * 2004-04-13 2007-01-03 Philips Intellectual Property & Standards GmbH Verfahren und system zum senden einer audionachricht
AU2005246437B2 (en) 2004-05-21 2011-10-06 Voice On The Go Inc. Remote access system and method and intelligent agent therefor

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
JPH0916372A (ja) * 1995-04-28 1997-01-17 Ricoh Co Ltd 音声合成装置
JPH09261344A (ja) * 1996-03-19 1997-10-03 Nippon Telegr & Teleph Corp <Ntt> 電子メール読みとり方法
JPH10117234A (ja) * 1996-10-11 1998-05-06 Canon Inc 電子メール読み上げ装置,電子メール読み上げ方法および記憶媒体

Also Published As

Publication number Publication date
AU6116499A (en) 2000-04-17
DE69910412D1 (de) 2003-09-18
CA2349564A1 (en) 2000-04-06
EP1116217B1 (de) 2003-08-13
EP1116217A1 (de) 2001-07-18
ATE247325T1 (de) 2003-08-15
WO2000019408A1 (en) 2000-04-06

Similar Documents

Publication Publication Date Title
DE69633883T2 (de) Verfahren zur automatischen Spracherkennung von willkürlichen gesprochenen Worten
DE602004012071T2 (de) Multimedia- und textnachrichten mit sprache-zu-text-hilfe
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE69839068T2 (de) System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE69922872T2 (de) Automatischer Hotelportier mit Spracherkennung
DE60217241T2 (de) Fokussierte Sprachmodelle zur Verbesserung der Spracheingabe von strukturierten Dokumenten
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
CN110751943A (zh) 一种语音情绪识别方法、装置以及相关设备
DE4436175A1 (de) Verfahren und System zum Zugreifen auf einen Computer über einen Telefonhandapparat
US20080140398A1 (en) System and a Method For Representing Unrecognized Words in Speech to Text Conversions as Syllables
EP1324314A1 (de) Spracherkennungssystem und Verfahren zum Betrieb eines solchen
DE60201939T2 (de) Vorrichtung zur sprecherunabhängigen Spracherkennung , basierend auf einem Client-Server-System
DE112004000187T5 (de) Verfahren und Vorrichtung der prosodischen Simulations-Synthese
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP1248251A2 (de) Verfahren und System zur automatischen Umsetzung von Textnachrichten in Sprachnachrichten
DE69910412T2 (de) Sprachgesteuerte navigation für einen elektronischen post leser
DE69933614T2 (de) System zur verteilung, übertragung und zum empfang von nachrichten sowie verfahren zur verteilung von nachrichten
DE19751123C1 (de) Vorrichtung und Verfahren zur sprecherunabhängigen Sprachnamenwahl für Telekommunikations-Endeinrichtungen
DE69233622T2 (de) Vorrichtung zur Erzeugung von Ansagen
DE60312963T2 (de) Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen
DE10327943B4 (de) Unterschiedliche Zahlenleseweisen zulassendes Spracherkennungssystem
DE10211777A1 (de) Erzeugung von Nachrichtentexten
DE19953813A1 (de) Verfahren zur Erstellung eines schriftlichen Telefongesprächprotokolls mit integrierter Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition