DE602005001111T2

DE602005001111T2 - Verfahren und System zur Personalisierung von Text-zu-Sprache Umsetzung

Info

Publication number: DE602005001111T2
Application number: DE602005001111T
Authority: DE
Inventors: Eric Daly Ng
Original assignee: Research in Motion Ltd
Current assignee: BlackBerry Ltd
Priority date: 2005-03-16
Filing date: 2005-03-16
Publication date: 2008-01-10
Anticipated expiration: 2025-03-17
Also published as: EP1804237A1; EP1703492B1; CA2539649A1; DE602005001111D1; ATE362164T1; HK1094913A1; EP1703492A1; CA2539649C

Description

Die vorliegende Erfindung betrifft im Allgemeinen die Text-zu-Sprache-Synthese und insbesondere ein Verfahren und System zur individuellen Anpassung einer derartigen Synthese.
Die Text-zu-Sprache-Synthesetechnologie bietet die Fähigkeit, einen beliebigen Text in hörbare Sprache umzuwandeln. Demgemäß kann diese Technologie dazu verwendet werden, Personen Textinformationen mit Hilfe von Sprachmitteilungen bereitzustellen. Diese Sprachmitteilungen können sich besonders bei Anwendungen als nützlich herausstellen, bei denen eine hörbare Ausgabe eine bevorzugte Form von Benutzer-Feedback ist, wenn mit einer Kommunikationsvorrichtung interagiert wird. Beispielsweise ist diese Funktion äußerst nützlich, wenn in der Kommunikationsvorrichtung Textmitteilungen empfangen werden, während der Benutzer Auto fährt.
Aufgrund der weiten Verbreitung von drahtlosen Kommunikationsvorrichtungen, einschließlich persönlicher digitaler Assistenten, intelligenter Mobiltelefone, tragbarer Computer, Zwei-Weg-Personenrufvorrichtungen und dergleichen, nimmt der Bedarf zu, dem Benutzer einer drahtlosen Kommunikationsvorrichtung ein Mittel bereitzustellen, Personen Textinformationen mit Hilfe von Sprachmitteilungen bereitzustellen.
Jedoch verwenden gegenwärtige Systeme im Allgemeinen eine einzige vorgewählte Stimme, um die Sprachmitteilungen darzustellen und alle ankommenden Textmitteilungen in einem hörbaren Format darzustellen. Diese Beschränkung kann mehrere Probleme aufwerfen, die wie folgt beschrieben werden.
Die Darstellung aller ankommenden Textmitteilungen unter Verwendung einer einzigen Stimme, hat wahrscheinlich einen monotonen Ton der Sprachmitteilung zur Folge. Demgemäß ist es für den Benutzer des Vorrichtungsbenutzers (als "der Benutzer" bezeichnet) möglicherweise schwierig, die Mitteilung korrekt zu interpretieren, wenn sie zum ersten Mal gehört wird. Des Weiteren kann es für den Benutzer der Vorrichtung schwierig sein, sich auf die Mitteilung zu konzentrieren, wodurch der Benutzer der Vorrichtung möglicherweise unterbewusst Teile der Mitteilung ignoriert. Folglich wird der Zweck oder die Idee, der bzw. die sich hinter der Mitteilung verbirgt, möglicherweise nicht korrekt interpretiert.
Darüber hinaus verwechselt der Benutzer der Vorrichtung möglicherweise die Inhalte von verschiedenen Mitteilungen. Da eine einzige Stimme verschiedene Sprachmitteilungen darstellt, gibt es für den Benutzer der Vorrichtung keine einfache Möglichkeit, zwischen verschiedenen Mitteilungen zu unterscheiden.
Darüber hinaus wird die Persönlichkeit des Senders vokal nicht dargestellt. Beispielsweise wird eine E-Mail von einer eiligen und unruhigen Person typischerweise monoton dargestellt und kann von einer Mitteilung, die von einer Person empfangen wird, die sanft und ruhig ist, nicht unterschieden werden.
US6801931 offenbart ein System und Verfahren zum Senden von E-Mail-Mitteilungen zusammen mit Sprachinformationen des Senders oder eines anderen Sprechers zu einem Empfängergerät. Das Verfahren umfasst das Definieren einer Gruppe von Basisvektoren, die zu einer menschlichen Stimme gehören, und das Anhängen der Vektoren an die Mitteilungsnutzinformationen der Textmitteilung. Die Kombination aus Mitteilungsnutzinformationen und angehängter Gruppe von Basisvektoren wird daraufhin durch ein Kommunikationsnetz gesendet. Die Mitteilung, die das Sprachmodell umfasst, das von den Basisvektoren definiert ist, wird daraufhin verarbeitet, so dass der Empfänger die Textanteile derselben in der Sprache des Senders gelesen hört. Jedoch kann ein Sender Basisvektoren anhängen, die zu einem Sprecher gehören, der von ihm oder ihr verschieden ist.
EP1168297 offenbart ein System zum Senden von Text-E-Mail-Mitteilungen, das das Senden einer Sprachsynthesevorlage zusammen mit der Textmitteilung umfasst. Die Vorlage wird dazu verwendet, die Sprache zu synthetisieren und Sprache zu erzeugen, die wie der Benutzer oder einer der Benutzer der sendenden Vorrichtung klingt. In manchen Fällen kann die Mitteilung ohne die Sprachsynthesevorlage gesendet werden und die Empfangsvorrichtung fordert die Vorlage vom Netz oder von der Vorrichtung des Senders an.
EP0901000 offenbart ein System zum Empfangen von Textmitteilungen einschließlich E-Mail-Mitteilungen, zum Verarbeiten der Textmitteilungen gemäß definierter Sprachtondateninformationen, die im Speicher der Sprachverarbeitungsvorrichtung gespeichert sind, und zum lauten Vorlesen der Textmitteilung in dem Sprachton. Unterschiedliche Sprachtöne können unterschiedlichen Mitteilungen zugeordnet werden, so dass unterschiedliche empfangene Mitteilungen in unterschiedlichen Sprachtönen laut vorgelesen werden.
Keine der vorgenannten Referenzen lehrt das Senden von Sprachcharakteristiken, die als Abweichung (oder Delta) von einer vorherbestimmten Standardstimme bestimmt werden.
Alle vorgenannten Punkte beeinflussen die Art und Weise, in der der Benutzer auf die ankommende Mitteilung reagiert. Demgemäß kann die vorliegende Erfindung mindestens einige der vorgenannten Nachteile beseitigen oder zu mildern.
ALLGEMEINES
Gemäß einem Gesichtspunkt der vorliegenden Erfindung und wie in Anspruch 1 beansprucht wird eine Kommunikationsvorrichtung zur hörbaren Ausgabe einer empfangenen Textmitteilung an einen Benutzer bereitgestellt, wobei die Vorrichtung Folgendes umfasst: Mittel zum Abrufen von Daten, die Sprachcharakteristikinformationen darstellen, die einem Sender der Textmitteilung zugeordnet sind, wobei die Daten, die die Sprachcharakteristikinformationen darstellen, die Sprachcharakteristikinformationen als eine Gruppe von Sprachcharakteristiken definieren und jede der Sprachcharakteristiken eine Differenz zwischen einer gewünschten Sprachcharakteristik und einer entsprechenden vorherbestimmten Sprachcharakteristik einer Standardstimme darstellt; einen Prozessor zum Synthetisieren einer Ausgabestimme gemäß den Sprachcharakteristikinformationen; und eine Ausgabevorrichtung, um dem Benutzer die Textmitteilung unter Verwendung der Ausgabestimme hörbar zu präsentieren.
Gemäß einem weiteren Gesichtspunkt der vorliegenden Erfindung und wie in Anspruch 3 beansprucht wird ein Verfahren zur hörbaren Ausgabe einer empfangenen Textmitteilung an einen Benutzer mit Hilfe einer Kommunikationsvorrichtung geschaffen, wobei die Textmitteilung von einem Sender empfangen wird und das Verfahren Folgende Schritte umfasst: Empfangen einer Textmitteilung, die hörbar präsentiert werden soll; Abrufen einer Ausgabestimme zur Präsentation der Textmitteilung, wobei die Ausgabestimme unter Verwendung vorherbestimmter Sprachcharakteristikinformationen synthetisiert wird, um die Stimme des Senders darzustellen, die vorherbestimmten Sprachcharakteristikinformationen durch eine Gruppe von Sprachdeltas bestimmt werden und jedes Sprachdelta eine Differenz zwischen einer gewünschten Sprachcharakteristik und einer entsprechenden vorherbestimmten Sprachcharakteristik einer Standardstimme darstellt; und Verwenden der Ausgabestimme, um dem Benutzer die Textmitteilung hörbar zu präsentieren.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die Erfindung wird nun nur beispielhaft unter Bezugnahme auf die folgenden Zeichnungen beschrieben, wobei:
1 ein Blockdiagramm ist, das ein Kommunikationsnetz veranschaulicht; und
2 ein Ablaufplan ist, der den Vorgang der individuellen Anpassung der Text-zu-Sprache-Synthese veranschaulicht.
BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
Aus Gründen der Zweckmäßigkeit bezeichnen gleiche Ziffern in der Beschreibung gleiche Konstruktionen in den Zeichnungen.
Unter Bezugnahme auf 1 ist eine Kommunikationsnetzinfrastruktur allgemein durch die Nummer 100 veranschaulicht. Die Kommunikationsnetzinfrastruktur 100 umfasst eine Vielzahl von Kommunikationsvorrichtungen 102 und ein Kommunikationsnetz 104.
Die Kommunikationsvorrichtungen 102, die ebenfalls einfach als Vorrichtungen 102 bezeichnet werden, können jede verdrahtete oder drahtlose Vorrichtung, wie beispielsweise einen Desktop-Computer, einen Laptop- oder tragbaren Computer, ein intelligentes Mobiltelefon, einen persönlichen digitalen Assistenten, wie beispielsweise einen Blackberry^TM von Research in Motion, und dergleichen umfassen. Die Kommunikationsvorrichtungen 102 stehen miteinander über das Kommunikationsnetz 104 in Kommunikation. Demgemäß kann das Kommunikationsnetz 104 eine oder mehrere Komponenten umfassen, einschließlich eines drahtlosen Netzes, eines Relais, eines öffentlichen Telefonnetzes (PSTN), eines Sprache-Über-Internet-Protokoll-Netzes (VoIP) und dergleichen.
Bei der vorliegenden Ausführungsform werden spezifische Sprachcharakteristiken des Senders dargestellt, wenn die Mitteilung dem Benutzer in einem hörbaren Format vorgestellt wird. Demgemäß hört der Benutzer verschiedene Stimmen für unterschiedliche Mitteilungen, wodurch die Mitteilung interessanter wird, dem Benutzer ermöglicht wird, die Mitteilung leichter zu verstehen, und die Wahrscheinlichkeit einer Verwechslung des Inhalts verschiedener Mitteilungen verringert wird.
Unter Bezugnahme auf 2 ist ein Ablaufplan, der den allgemeinen Betrieb der vorliegenden Ausführungsform veranschaulicht, durch die Nummer 200 dargestellt. In Schritt 202 werden Sprachcharakteristikinformationen des Senders erfasst. In Schritt 204 werden die Sprachcharakteristikinformationen zusammen mit der Mitteilung zum Benutzer gesendet. In Schritt 206 werden die Sprachcharakteristikinformationen auf die Mitteilung angewendet, wenn sie dem Benutzer vorgestellt wird.
Die oben erörterten Sprachcharakteristikinformationen können einfach ein einzelnes Bit sein, das anzeigt, ob der Sender männlich oder weiblich ist. Alternativ können die Sprachcharakteristikinformationen komplexer sein und einen größeren Anteil der Sprachcharakteristikinformationen des Senders erfassen.
Es kann angenommen werden, dass der Klang der Stimme einer Person aus einer Vielzahl von Sprachcharakteristiken besteht. Diese Sprachcharakteristiken können auf eine Reihe von unterschiedlichen Arten erfasst werden. Die folgenden Absätze stellen mehrere Beispiele für Elemente der Sprache einer Person vor, die den Klang ihrer Stimme charakterisieren.
Die Geschwindigkeit, mit der der Sender spricht, ist eine Sprachcharakteristik. Die Sprechgeschwindigkeit kann mit Hilfe einer Reihe von Faktoren bestimmt werden, wie Fachleuten ersichtlich ist. Zum Beispiel können diese Faktoren die Zeit umfassen, die der Sender benötigt, um einen Vokal auszusprechen, die Zeit, während der der Sender zwischen Wörtern pausiert, und die Zeit, während der der Sender zwischen Sätzen pausiert. Diese und andere Faktoren können entweder unabhängig oder miteinander kombiniert verwendet werden, um eine Geschwindigkeitscharakteristik zu bestimmen.
Die Frequenz, mit der der Sender spricht, ist eine andere Sprachcharakteristik. Dementsprechend wird die Stimmlage der Stimme des Senders bestimmt. Das Niveau, auf dem diese Sprachcharakteristik gemessen wird, hängt von der Implementierung ab. Das bedeutet, wenn es ausreicht, zu bestimmen, ob die Stimme eine männliche oder weibliche Stimme ist, so kann die Frequenz durch ein einzelnes Bit dargestellt werden und der Benutzer wird durch entweder durch eine generische männliche Stimmlage oder eine generische weibliche Stimmlage für die Stimme dargestellt.
Alternativ kann die Stimmlage der Stimme des Senders durch eine Vielzahl von Bits codiert werden. Da mehr Daten zur Verfügung stehen, um die Stimmlage der Stimme des Senders darzustellen, ist das System in der Lage, die tatsächliche Stimmlage der Stimme des Senders genauer nachzuahmen, wenn die Audiomitteilung dem Benutzer vorgestellt wird.
Die Lautstärke, mit der der Sender spricht, ist noch eine andere Sprachcharakteristik. Die Gesamtlautstärke, mit der der Sender spricht, kann durch verschiedene Variablen definiert werden, einschließlich der allgemeinen oder durchschnittlichen Lautstärke des Senders, der Lautstärke für einen spezifischen Konsonanten oder Vokal und der Lautstärke bei oder kurz vor verschiedenen Arten von Interpunktionen.
Wie Durchnittsfachleuten ersichtlich ist, ist die oben aufgeführte Liste eine kleiner Auszug möglicher Arten des Erfassens von Sprachcharakteristiken.
Bei der vorliegenden Ausführungsform werden die Sprachcharakteristikinformationen beim Sender bestimmt. Das einfachste Verfahren zur Auswahl von Sprachcharakteristikinformationen ermöglicht dem Sender, eine Stimme aus einer Liste von mindestens zwei vorherbestimmten Stimmen auszuwählen. Vorzugsweise gibt es mindestens eine männliche und eine weibliche Stimme, unter denen die Wahl getroffen werden kann. Der Sender kann daraufhin die Stimme auswählen, die er bevorzugt, jedoch würde er idealerweies die Stimme auswählen, die die wirkliche Stimme des Senders am genauesten wiedergibt.
Wenn der Satz von vorherbestimmten Stimmen auf allen Vorrichtungen derselbe ist, dann werden jeder der vorherbestimmten Stimmen Etiketten zugeordnet. Die Etiketten können von der Vorrichtung des Benutzers dafür verwendet werden, die Stimme zu identifizieren, die der Sender zur Darstellung der Mitteilung ausgewählt hat.
Wenn der Satz von vorherbestimmten Stimmen nicht auf allen Vorrichtungen derselbe ist, wird alternativ eine Reihe von Unterschieden, im Folgenden als Sprachdeltas bezeichnet, unter Bezugnahme auf eine Standardstimme berechnet. Die Sprachdeltas können von der Vorrichtung des Benutzers dafür verwendet werden, die Stimme nachzubilden, die der Sender zur Darstellung der Mitteilung ausgewählt hat.
Bei einer alternativen Ausführungsform werden dem Sender eine Anzahl von Sprachcharakteristikoptionen vorgestellt. Der Sender kann wählen, jede der Sprachcharakteristikoptionen einzustellen oder sie auf einem Standardwert zu belassen. Sobald der Sender die gewünschten Sprachcharakteristikoptionen eingestellt hat, wird dem Sender eine Stimme, die von den Sprachcharakteristikoptionen definiert ist, unter Verwendung der Vorrichtung des Senders vorgestellt.
Wenn der Sender mit der Art, wie die Stimme klingt, nicht zufrieden ist, kann der Sender die Sprachcharakteristikoptionen modifizieren, bis der Sender zufriedengestellt ist. Sobald der Sender zufriedengestellt ist, können die Sprachcharakteristikinformationen verwendet werden, um den Sender zu repräsentieren.
Wenn alle Vorrichtungen über die Fähigkeit verfügen, die Sprachcharakteristikoptionen zu deuten, können die Werte der Sprachcharakteristikoptionen zur Vorrichtung des Benutzers gesendet werden. Die Werte können von der Vorrichtung des Benutzers dazu verwendet werden, die Sprachcharakteristikinformationen nachzubilden, die vom Sender zur Darstellung der Mitteilung definiert wurden.
Wenn nicht alle Vorrichtungen über die Fähigkeit verfügen, die Sprachcharakteristikoptionen zu deuten, wird alternativ eine Reihe von Sprachdeltas unter Bezugnahme auf eine Standardstimme für die Übertragung zur Vorrichtung des Benutzers berechnet. Die Sprachdeltas können von der Vorrichtung des Benutzers dafür verwendet werden, die Stimme, die der Sender zur Darstellung der Mitteilung gewählt hat, nachzubilden.
Bei noch einer anderen Ausführungsform wird der Vorrichtung des Senders eine Softwareanwendung bereitgestellt, die zur Bestimmung der Sprachcharakteristiken des Senders verwendet wird. Die Anwendung fordert den Benutzer auf, einen Textabschnitt zu sprechen. Der Textabschnitt ist vorzugsweise eine vorherbestimmte Phrase oder ein vorherbestimmter Absatz, er kann jedoch ebenfalls eine beliebige Phrase oder ein beliebiger Absatz sein, der vom Sender gewählt wird. Gegenwärtig ist keine bevorzugte Phrase erstellt worden, jedoch ist Fachleuten ersichtlich, dass die Phrase die Charakteristiken einkapseln sollte, die erfasst werden sollen, um ein exaktes Erfassen der Sprachcharakteristiken zu ermöglichen.
Bei der vorliegenden Ausführungsform sind mehrere Sprachcharakteristiken zur Überwachung durch die Software definiert. Die Sprachcharakteristiken, die zur Definierung der Stimme des Senders verwendet werden und die von der Software überwacht werden, umfassen diejenigen, die oben ausführlich beschrieben wurden. Zusätzliche Sprachcharakteristiken sind Durchschnittsfachleuten ersichtlich. Des Weiteren können unterschiedliche Ausführungsformen je nach Wunsch verschiedene Kombinationen dieser Sprachcharakteristiken verwenden.
Wie bei den vorangehenden Ausführungsformen können die Sprachcharakteristiken entweder als Satz von Sprachcharakteristiken oder als Reihe von Sprachdeltas, die zwischen der gesprochenen Stimme und einer Standardstimme berechnet werden, zur Vorrichtung des Benutzers übertragen werden. Die Sprachcharakteristiken können von der Vorrichtung des Benutzers dafür vewendet werden, die Stimme nachzubilden, die von der Software überwacht wird, um die Mitteilung darzustellen.
Bei noch einer anderen Ausführungsform wird der Vorrichtung des Senders eine Softwareanwendung bereitgestellt, die zur Überwachung der Sprache des Senders während der Konversation verwendet wird. Diese Ausführungsform ist besonders nützlich, wenn der Sender die Vorrichtung für andere Sprachzwecke verwendet, wie beispielsweise ein Mobiltelefon oder eine Sprachaufzeichnungsvorrichtung. Die Softwareanwendung überwacht die Sprache des Senders und stellt die Sprachcharakteristiken dementsprechend dynamisch ein. Wenn der Sender die Mitteilung überträgt, kann die neueste Version der Sprachcharakteristiken entweder als Satz von Sprachcharakteristiken oder als Reihe von Sprachdeltas, die zwischen der gesprochenen Stimme und einer Standardstimme berechnet werden, zur Vorrichtung des Benutzers übertragen werden. Die Sprachcharakteristiken können von der Vorrichtung des Benutzers dafür verwendet werden, die Stimme wiederzugeben, die von der Software zur Darstellung der Mitteilung überwacht wird.
Die Sprachcharakteristiken des Senders werden zusammen mit der Mitteilung übertragen. Für E-Mails können die Sprachcharakteristikinformationen in einen speziellen Anfangsblock oder eine digitale Signatur eingebettet werden. Für die Sofortmitteilungsübermittlung können die Sprachcharakteristikinformationen in den Anfangsblock der Mitteilung eingebettet werden. Andere Übertragungsweisen sind Fachleuten ersichtlich.
Des Weiteren kann die Standardstimme zusammen mit den Sprachcharakteristiken übertragen werden, wenn die Sprachcharakteristiken durch Sprachdeltas dargestellt werden. Dies kann dazu verwendet werden, eine konsistente Bezugsstimme sicherzustellen, wenn die Vorrichtung des Benutzers versucht, während der Darstellung der Mitteilung die Stimme des Senders nachzuahmen.
Die Vorrichtung des Benutzers umfasst einen Speicher zum Speichern der Sprachcharakteristikinformationen, die dem Sender der Textmitteilung zugeordnet sind, sowie einen Prozessor zur Synthetisierung einer Ausgabestimme gemäß den Sprachcharakteristikinformationen. Die Vorrichtung umfasst des Weiteren einen Ausgang für die hörbare Darstellung der Textmitteilung für den Benutzer unter Verwendung der Ausgabestimme. Typischerweise erfolgt die Ausgabe in Form von einem oder mehreren Sprechern. Jedoch kann die Vorrichtung die Stimme an eine externe Vorrichtung zur hörbaren Ausgabe über eine verdrahtete oder drahtlose Verbindung ausgeben. Zum Beispiel kann ein in einem Fahrzeug verwendetes intelligentes Mobiltelefon mit einer Bluetooth^TM-Verbindung ein Signal an das Audiosystem des Fahrzeugs ausgeben. Das Audiosystem des Fahrzeugs gibt seinerseits die Stimme unter Verwendung des Lautsprechersystem des Fahrzeugs aus.
Wenn der Benutzer wählt, die Mitteilung anzuhören anstatt sie zu lesen, werden die zusammen mit der Mitteilung übertragenen Sprachcharakteristikinformationen dazu verwendet, die Mitteilung darzustellen. Abhängig von der Implementierung wird die Stimme des Senders als Satz von Sprachcharakteristikinformationen oder als Reihe von Sprachdeltas dargestellt. Die Vorrichtung des Benutzers verwendet die Sprachcharakteristikinformationen, um die Stimme des Senders nachzuahmen und dem Benutzer die Mitteilung darzustellen.
Bei der Darstellung der Mitteilung kann die Vorrichtung des Benutzers ebenfalls bekannte Textsymbole verwenden, um die Sprachcharakteristiken während der Wiedergabe zu verändern. Zum Beispiel sind Emoticons eine bekannte Form der Darstellung von Emotionen unter Verwendung von Symbolen. Zum Beispiel wird ein "Smiley" häufig als ":)" dargestellt. Wenn ein Smiley im Text der Mitteilung vorhanden ist, kann der Ton der Stimme verändert werden, um die Emotion des Senders anzugeben. Wie Fachleuten ersichtlich ist, gibt es viele mögliche Emoticons, die zur Darstellung einer Vielzahl von Emotionen verwendet werden können.
In sämtlichen zuvor beschriebenen Ausführungsformen werden die Sprachcharakteristiken des Senders vom Sender definiert. Bei einer alternativen Ausführungsform können die Sprachcharakteristiken des Senders ebenfalls vom Benutzer definiert werden. Wenn der Sender oder die Senderin seine oder ihre Sprachcharakteristiken nicht definiert oder nicht definieren kann, kann der Benutzer immer noch bestimmte Sprachcharakteristiken definieren, um den Sender darzustellen.
Bei der vorliegenden Ausführungsform kann der Benutzer einem Senderetikett, wie beispielsweise einer E-Mail-Adresse oder einem Sofortmitteilungsbenutzeretikett, Sprachcharakteristikinformationen zuordnen. Wenn der Benutzer eine Mitteilung von einem Sender empfängt, die mit dem Senderetikett übereinstimmt, werden dementsprechend die Sprachcharakteristikinformationen zur Darstellung der Mitteilung verwendet. Ebenso wie bei der zuvor beschriebenen Auswahl von Ausführungsformen kann der Benutzer die Sprachcharakteristiken so wählen, dass sie die Stimme des Senders am besten darstellen.
Des Weiteren kann der Benutzer über eine Softwareanwendung zum Analysieren der Stimme eines Senders in der Vorrichtung des Benutzers verfügen. Diese kann zum Beispiel angewendet werden, wenn die Vorrichtung des Benutzers eine Telefonfunktionalität umfasst. Zusätzlich zu der E-Mail-Adresse des Senders kann das Senderetikett ebenfalls Informationen wie beispielsweise die Telefonnummern des Senders umfassen. Wenn der Benutzer am Telefon ist, kann der Sender über das Telefon identifiziert werden, wodurch der Software ermöglicht wird, die Sprachcharakteristiken des Senders dynamisch zu aktualisieren.
Obwohl bevorzugte Ausführungsformen der Erfindung hierin beschrieben worden sind, ist Fachleuten ersichtlich, dass Variationen daran vorgenommen werden können, ohne vom Bereich der angehängten Ansprüche abzuweichen.
Übersetzung der Figuren
2

202: Sprachcharakteristikinformationen erfassen
204: Erfasste Sprachcharakteristikinformationen übertragen
206: Erfasste Sprachcharakteristikinformationen zur Darstellung der Mitteilung
verwenden

Claims

Kommunikationsvorrichtung (102) zur hörbaren Ausgabe einer empfangenen Textmitteilung an einen Benutzer, wobei die Vorrichtung (102) Folgendes umfasst: Mittel zum Abrufen von Daten, die Sprachcharakteristikinformationen darstellen, die einem Sender der Textmitteilung zugeordnet sind, wobei die Daten, die die Sprachcharakteristikinformationen darstellen, die Sprachcharakteristikinformationen als eine Gruppe von Sprachdeltas definieren und jedes Sprachdelta eine Differenz zwischen einer gewünschten Sprachcharakteristik und einer entsprechenden vorherbestimmten Sprachcharakteristik einer Standardstimme darstellt; einen Prozessor zum Synthetisieren einer Ausgabestimme gemäß den Sprachcharakteristikinformationen und eine Ausgabevorrichtung, um dem Benutzer die Textmitteilung unter Verwendung der Ausgabestimme hörbar zu präsentieren.
Kommunikationsvorrichtung nach Anspruch 1, wobei die Textmitteilung eine E-Mail-Mitteilung oder eine Instant-Mitteilung ist.
Verfahren zur hörbaren Ausgabe einer empfangenen Textmitteilung an einen Benutzer mit Hilfe einer Kommunikationsvorrichtung (102), wobei die Textmitteilung von einem Sender empfangen wird und das Verfahren Folgende Schritte umfasst: Empfangen einer Textmitteilung, die hörbar präsentiert werden soll; Abrufen einer Ausgabestimme zur Präsentation der Textmitteilung, wobei die Ausgabestimme unter Verwendung vorherbestimmter Sprachcharakteristikinformationen synthetisiert wird, um die Stimme des Senders darzustellen, die vorherbestimmten Sprachcharakteristikinformationen durch eine Gruppe von Sprachdeltas bestimmt werden und jedes Sprachdelta eine Differenz zwischen einer gewünschten Sprachcharakteristik und einer entsprechenden vorherbestimmten Sprachcharakteristik einer Standardstimme darstellt; und Verwenden der Ausgabestimme, um dem Benutzer die Textmitteilung hörbar zu präsentieren.
Verfahren nach Anspruch 3, das des Weiteren den Schritt der Auswahl von Werten zur Bestimmung der Sprachcharakteristikinformationen umfasst.
Verfahren nach Anspruch 3 oder Anspruch 4, das des Weiteren den Schritt der automatischen Bestimmung von Werten für die vorherbestimmten Sprachcharakteristikinformationen umfasst.
Verfahren nach einem der Ansprüche 3 bis 5, wobei die Sprachcharakteristikinformationen von dem Sender definiert werden und zum Benutzer übertragen werden.
Verfahren nach Anspruch 6, wobei die Sprachcharakteristikinformationen zusammen mit der Mitteilung zu dem Benutzer übertragen werden.
Verfahren nach einem der Ansprüche 3 bis 5, wobei die Sprachcharakteristikinformationen von dem Benutzer definiert werden.
Verfahren nach einem der Ansprüche 3 bis 7, wobei die vorherbestimmte Sprachcharakteristik einer Standardstimme zusammen mit den Sprachdeltas beitragen wird.
Computerlesbares Medium, das Befehlsmittel umfasst, die, wenn sie in einem Computer oder einer Kommunikationsvorrichtung (102) ausgeführt werden, den Computer oder die Kommunikationsvorrichtung veranlassen, das Verfahren nach einem der Ansprüche 3 bis 9 zu implementieren.
Kommunikationssystem (100), das mindestens eine Kommunikationsvorrichtung (102) nach Anspruch 1 oder Anspruch 2 umfasst.