DE602005001111T2 - Verfahren und System zur Personalisierung von Text-zu-Sprache Umsetzung - Google Patents

Verfahren und System zur Personalisierung von Text-zu-Sprache Umsetzung Download PDF

Info

Publication number
DE602005001111T2
DE602005001111T2 DE602005001111T DE602005001111T DE602005001111T2 DE 602005001111 T2 DE602005001111 T2 DE 602005001111T2 DE 602005001111 T DE602005001111 T DE 602005001111T DE 602005001111 T DE602005001111 T DE 602005001111T DE 602005001111 T2 DE602005001111 T2 DE 602005001111T2
Authority
DE
Germany
Prior art keywords
voice
user
characteristic information
speech
text message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602005001111T
Other languages
English (en)
Other versions
DE602005001111D1 (de
Inventor
Eric Daly Ng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BlackBerry Ltd
Original Assignee
Research in Motion Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research in Motion Ltd filed Critical Research in Motion Ltd
Publication of DE602005001111D1 publication Critical patent/DE602005001111D1/de
Application granted granted Critical
Publication of DE602005001111T2 publication Critical patent/DE602005001111T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72436User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. SMS or e-mail

Description

  • Die vorliegende Erfindung betrifft im Allgemeinen die Text-zu-Sprache-Synthese und insbesondere ein Verfahren und System zur individuellen Anpassung einer derartigen Synthese.
  • Die Text-zu-Sprache-Synthesetechnologie bietet die Fähigkeit, einen beliebigen Text in hörbare Sprache umzuwandeln. Demgemäß kann diese Technologie dazu verwendet werden, Personen Textinformationen mit Hilfe von Sprachmitteilungen bereitzustellen. Diese Sprachmitteilungen können sich besonders bei Anwendungen als nützlich herausstellen, bei denen eine hörbare Ausgabe eine bevorzugte Form von Benutzer-Feedback ist, wenn mit einer Kommunikationsvorrichtung interagiert wird. Beispielsweise ist diese Funktion äußerst nützlich, wenn in der Kommunikationsvorrichtung Textmitteilungen empfangen werden, während der Benutzer Auto fährt.
  • Aufgrund der weiten Verbreitung von drahtlosen Kommunikationsvorrichtungen, einschließlich persönlicher digitaler Assistenten, intelligenter Mobiltelefone, tragbarer Computer, Zwei-Weg-Personenrufvorrichtungen und dergleichen, nimmt der Bedarf zu, dem Benutzer einer drahtlosen Kommunikationsvorrichtung ein Mittel bereitzustellen, Personen Textinformationen mit Hilfe von Sprachmitteilungen bereitzustellen.
  • Jedoch verwenden gegenwärtige Systeme im Allgemeinen eine einzige vorgewählte Stimme, um die Sprachmitteilungen darzustellen und alle ankommenden Textmitteilungen in einem hörbaren Format darzustellen. Diese Beschränkung kann mehrere Probleme aufwerfen, die wie folgt beschrieben werden.
  • Die Darstellung aller ankommenden Textmitteilungen unter Verwendung einer einzigen Stimme, hat wahrscheinlich einen monotonen Ton der Sprachmitteilung zur Folge. Demgemäß ist es für den Benutzer des Vorrichtungsbenutzers (als "der Benutzer" bezeichnet) möglicherweise schwierig, die Mitteilung korrekt zu interpretieren, wenn sie zum ersten Mal gehört wird. Des Weiteren kann es für den Benutzer der Vorrichtung schwierig sein, sich auf die Mitteilung zu konzentrieren, wodurch der Benutzer der Vorrichtung möglicherweise unterbewusst Teile der Mitteilung ignoriert. Folglich wird der Zweck oder die Idee, der bzw. die sich hinter der Mitteilung verbirgt, möglicherweise nicht korrekt interpretiert.
  • Darüber hinaus verwechselt der Benutzer der Vorrichtung möglicherweise die Inhalte von verschiedenen Mitteilungen. Da eine einzige Stimme verschiedene Sprachmitteilungen darstellt, gibt es für den Benutzer der Vorrichtung keine einfache Möglichkeit, zwischen verschiedenen Mitteilungen zu unterscheiden.
  • Darüber hinaus wird die Persönlichkeit des Senders vokal nicht dargestellt. Beispielsweise wird eine E-Mail von einer eiligen und unruhigen Person typischerweise monoton dargestellt und kann von einer Mitteilung, die von einer Person empfangen wird, die sanft und ruhig ist, nicht unterschieden werden.
  • US6801931 offenbart ein System und Verfahren zum Senden von E-Mail-Mitteilungen zusammen mit Sprachinformationen des Senders oder eines anderen Sprechers zu einem Empfängergerät. Das Verfahren umfasst das Definieren einer Gruppe von Basisvektoren, die zu einer menschlichen Stimme gehören, und das Anhängen der Vektoren an die Mitteilungsnutzinformationen der Textmitteilung. Die Kombination aus Mitteilungsnutzinformationen und angehängter Gruppe von Basisvektoren wird daraufhin durch ein Kommunikationsnetz gesendet. Die Mitteilung, die das Sprachmodell umfasst, das von den Basisvektoren definiert ist, wird daraufhin verarbeitet, so dass der Empfänger die Textanteile derselben in der Sprache des Senders gelesen hört. Jedoch kann ein Sender Basisvektoren anhängen, die zu einem Sprecher gehören, der von ihm oder ihr verschieden ist.
  • EP1168297 offenbart ein System zum Senden von Text-E-Mail-Mitteilungen, das das Senden einer Sprachsynthesevorlage zusammen mit der Textmitteilung umfasst. Die Vorlage wird dazu verwendet, die Sprache zu synthetisieren und Sprache zu erzeugen, die wie der Benutzer oder einer der Benutzer der sendenden Vorrichtung klingt. In manchen Fällen kann die Mitteilung ohne die Sprachsynthesevorlage gesendet werden und die Empfangsvorrichtung fordert die Vorlage vom Netz oder von der Vorrichtung des Senders an.
  • EP0901000 offenbart ein System zum Empfangen von Textmitteilungen einschließlich E-Mail-Mitteilungen, zum Verarbeiten der Textmitteilungen gemäß definierter Sprachtondateninformationen, die im Speicher der Sprachverarbeitungsvorrichtung gespeichert sind, und zum lauten Vorlesen der Textmitteilung in dem Sprachton. Unterschiedliche Sprachtöne können unterschiedlichen Mitteilungen zugeordnet werden, so dass unterschiedliche empfangene Mitteilungen in unterschiedlichen Sprachtönen laut vorgelesen werden.
  • Keine der vorgenannten Referenzen lehrt das Senden von Sprachcharakteristiken, die als Abweichung (oder Delta) von einer vorherbestimmten Standardstimme bestimmt werden.
  • Alle vorgenannten Punkte beeinflussen die Art und Weise, in der der Benutzer auf die ankommende Mitteilung reagiert. Demgemäß kann die vorliegende Erfindung mindestens einige der vorgenannten Nachteile beseitigen oder zu mildern.
  • ALLGEMEINES
  • Gemäß einem Gesichtspunkt der vorliegenden Erfindung und wie in Anspruch 1 beansprucht wird eine Kommunikationsvorrichtung zur hörbaren Ausgabe einer empfangenen Textmitteilung an einen Benutzer bereitgestellt, wobei die Vorrichtung Folgendes umfasst: Mittel zum Abrufen von Daten, die Sprachcharakteristikinformationen darstellen, die einem Sender der Textmitteilung zugeordnet sind, wobei die Daten, die die Sprachcharakteristikinformationen darstellen, die Sprachcharakteristikinformationen als eine Gruppe von Sprachcharakteristiken definieren und jede der Sprachcharakteristiken eine Differenz zwischen einer gewünschten Sprachcharakteristik und einer entsprechenden vorherbestimmten Sprachcharakteristik einer Standardstimme darstellt; einen Prozessor zum Synthetisieren einer Ausgabestimme gemäß den Sprachcharakteristikinformationen; und eine Ausgabevorrichtung, um dem Benutzer die Textmitteilung unter Verwendung der Ausgabestimme hörbar zu präsentieren.
  • Gemäß einem weiteren Gesichtspunkt der vorliegenden Erfindung und wie in Anspruch 3 beansprucht wird ein Verfahren zur hörbaren Ausgabe einer empfangenen Textmitteilung an einen Benutzer mit Hilfe einer Kommunikationsvorrichtung geschaffen, wobei die Textmitteilung von einem Sender empfangen wird und das Verfahren Folgende Schritte umfasst: Empfangen einer Textmitteilung, die hörbar präsentiert werden soll; Abrufen einer Ausgabestimme zur Präsentation der Textmitteilung, wobei die Ausgabestimme unter Verwendung vorherbestimmter Sprachcharakteristikinformationen synthetisiert wird, um die Stimme des Senders darzustellen, die vorherbestimmten Sprachcharakteristikinformationen durch eine Gruppe von Sprachdeltas bestimmt werden und jedes Sprachdelta eine Differenz zwischen einer gewünschten Sprachcharakteristik und einer entsprechenden vorherbestimmten Sprachcharakteristik einer Standardstimme darstellt; und Verwenden der Ausgabestimme, um dem Benutzer die Textmitteilung hörbar zu präsentieren.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die Erfindung wird nun nur beispielhaft unter Bezugnahme auf die folgenden Zeichnungen beschrieben, wobei:
  • 1 ein Blockdiagramm ist, das ein Kommunikationsnetz veranschaulicht; und
  • 2 ein Ablaufplan ist, der den Vorgang der individuellen Anpassung der Text-zu-Sprache-Synthese veranschaulicht.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Aus Gründen der Zweckmäßigkeit bezeichnen gleiche Ziffern in der Beschreibung gleiche Konstruktionen in den Zeichnungen.
  • Unter Bezugnahme auf 1 ist eine Kommunikationsnetzinfrastruktur allgemein durch die Nummer 100 veranschaulicht. Die Kommunikationsnetzinfrastruktur 100 umfasst eine Vielzahl von Kommunikationsvorrichtungen 102 und ein Kommunikationsnetz 104.
  • Die Kommunikationsvorrichtungen 102, die ebenfalls einfach als Vorrichtungen 102 bezeichnet werden, können jede verdrahtete oder drahtlose Vorrichtung, wie beispielsweise einen Desktop-Computer, einen Laptop- oder tragbaren Computer, ein intelligentes Mobiltelefon, einen persönlichen digitalen Assistenten, wie beispielsweise einen BlackberryTM von Research in Motion, und dergleichen umfassen. Die Kommunikationsvorrichtungen 102 stehen miteinander über das Kommunikationsnetz 104 in Kommunikation. Demgemäß kann das Kommunikationsnetz 104 eine oder mehrere Komponenten umfassen, einschließlich eines drahtlosen Netzes, eines Relais, eines öffentlichen Telefonnetzes (PSTN), eines Sprache-Über-Internet-Protokoll-Netzes (VoIP) und dergleichen.
  • Bei der vorliegenden Ausführungsform werden spezifische Sprachcharakteristiken des Senders dargestellt, wenn die Mitteilung dem Benutzer in einem hörbaren Format vorgestellt wird. Demgemäß hört der Benutzer verschiedene Stimmen für unterschiedliche Mitteilungen, wodurch die Mitteilung interessanter wird, dem Benutzer ermöglicht wird, die Mitteilung leichter zu verstehen, und die Wahrscheinlichkeit einer Verwechslung des Inhalts verschiedener Mitteilungen verringert wird.
  • Unter Bezugnahme auf 2 ist ein Ablaufplan, der den allgemeinen Betrieb der vorliegenden Ausführungsform veranschaulicht, durch die Nummer 200 dargestellt. In Schritt 202 werden Sprachcharakteristikinformationen des Senders erfasst. In Schritt 204 werden die Sprachcharakteristikinformationen zusammen mit der Mitteilung zum Benutzer gesendet. In Schritt 206 werden die Sprachcharakteristikinformationen auf die Mitteilung angewendet, wenn sie dem Benutzer vorgestellt wird.
  • Die oben erörterten Sprachcharakteristikinformationen können einfach ein einzelnes Bit sein, das anzeigt, ob der Sender männlich oder weiblich ist. Alternativ können die Sprachcharakteristikinformationen komplexer sein und einen größeren Anteil der Sprachcharakteristikinformationen des Senders erfassen.
  • Es kann angenommen werden, dass der Klang der Stimme einer Person aus einer Vielzahl von Sprachcharakteristiken besteht. Diese Sprachcharakteristiken können auf eine Reihe von unterschiedlichen Arten erfasst werden. Die folgenden Absätze stellen mehrere Beispiele für Elemente der Sprache einer Person vor, die den Klang ihrer Stimme charakterisieren.
  • Die Geschwindigkeit, mit der der Sender spricht, ist eine Sprachcharakteristik. Die Sprechgeschwindigkeit kann mit Hilfe einer Reihe von Faktoren bestimmt werden, wie Fachleuten ersichtlich ist. Zum Beispiel können diese Faktoren die Zeit umfassen, die der Sender benötigt, um einen Vokal auszusprechen, die Zeit, während der der Sender zwischen Wörtern pausiert, und die Zeit, während der der Sender zwischen Sätzen pausiert. Diese und andere Faktoren können entweder unabhängig oder miteinander kombiniert verwendet werden, um eine Geschwindigkeitscharakteristik zu bestimmen.
  • Die Frequenz, mit der der Sender spricht, ist eine andere Sprachcharakteristik. Dementsprechend wird die Stimmlage der Stimme des Senders bestimmt. Das Niveau, auf dem diese Sprachcharakteristik gemessen wird, hängt von der Implementierung ab. Das bedeutet, wenn es ausreicht, zu bestimmen, ob die Stimme eine männliche oder weibliche Stimme ist, so kann die Frequenz durch ein einzelnes Bit dargestellt werden und der Benutzer wird durch entweder durch eine generische männliche Stimmlage oder eine generische weibliche Stimmlage für die Stimme dargestellt.
  • Alternativ kann die Stimmlage der Stimme des Senders durch eine Vielzahl von Bits codiert werden. Da mehr Daten zur Verfügung stehen, um die Stimmlage der Stimme des Senders darzustellen, ist das System in der Lage, die tatsächliche Stimmlage der Stimme des Senders genauer nachzuahmen, wenn die Audiomitteilung dem Benutzer vorgestellt wird.
  • Die Lautstärke, mit der der Sender spricht, ist noch eine andere Sprachcharakteristik. Die Gesamtlautstärke, mit der der Sender spricht, kann durch verschiedene Variablen definiert werden, einschließlich der allgemeinen oder durchschnittlichen Lautstärke des Senders, der Lautstärke für einen spezifischen Konsonanten oder Vokal und der Lautstärke bei oder kurz vor verschiedenen Arten von Interpunktionen.
  • Wie Durchnittsfachleuten ersichtlich ist, ist die oben aufgeführte Liste eine kleiner Auszug möglicher Arten des Erfassens von Sprachcharakteristiken.
  • Bei der vorliegenden Ausführungsform werden die Sprachcharakteristikinformationen beim Sender bestimmt. Das einfachste Verfahren zur Auswahl von Sprachcharakteristikinformationen ermöglicht dem Sender, eine Stimme aus einer Liste von mindestens zwei vorherbestimmten Stimmen auszuwählen. Vorzugsweise gibt es mindestens eine männliche und eine weibliche Stimme, unter denen die Wahl getroffen werden kann. Der Sender kann daraufhin die Stimme auswählen, die er bevorzugt, jedoch würde er idealerweies die Stimme auswählen, die die wirkliche Stimme des Senders am genauesten wiedergibt.
  • Wenn der Satz von vorherbestimmten Stimmen auf allen Vorrichtungen derselbe ist, dann werden jeder der vorherbestimmten Stimmen Etiketten zugeordnet. Die Etiketten können von der Vorrichtung des Benutzers dafür verwendet werden, die Stimme zu identifizieren, die der Sender zur Darstellung der Mitteilung ausgewählt hat.
  • Wenn der Satz von vorherbestimmten Stimmen nicht auf allen Vorrichtungen derselbe ist, wird alternativ eine Reihe von Unterschieden, im Folgenden als Sprachdeltas bezeichnet, unter Bezugnahme auf eine Standardstimme berechnet. Die Sprachdeltas können von der Vorrichtung des Benutzers dafür verwendet werden, die Stimme nachzubilden, die der Sender zur Darstellung der Mitteilung ausgewählt hat.
  • Bei einer alternativen Ausführungsform werden dem Sender eine Anzahl von Sprachcharakteristikoptionen vorgestellt. Der Sender kann wählen, jede der Sprachcharakteristikoptionen einzustellen oder sie auf einem Standardwert zu belassen. Sobald der Sender die gewünschten Sprachcharakteristikoptionen eingestellt hat, wird dem Sender eine Stimme, die von den Sprachcharakteristikoptionen definiert ist, unter Verwendung der Vorrichtung des Senders vorgestellt.
  • Wenn der Sender mit der Art, wie die Stimme klingt, nicht zufrieden ist, kann der Sender die Sprachcharakteristikoptionen modifizieren, bis der Sender zufriedengestellt ist. Sobald der Sender zufriedengestellt ist, können die Sprachcharakteristikinformationen verwendet werden, um den Sender zu repräsentieren.
  • Wenn alle Vorrichtungen über die Fähigkeit verfügen, die Sprachcharakteristikoptionen zu deuten, können die Werte der Sprachcharakteristikoptionen zur Vorrichtung des Benutzers gesendet werden. Die Werte können von der Vorrichtung des Benutzers dazu verwendet werden, die Sprachcharakteristikinformationen nachzubilden, die vom Sender zur Darstellung der Mitteilung definiert wurden.
  • Wenn nicht alle Vorrichtungen über die Fähigkeit verfügen, die Sprachcharakteristikoptionen zu deuten, wird alternativ eine Reihe von Sprachdeltas unter Bezugnahme auf eine Standardstimme für die Übertragung zur Vorrichtung des Benutzers berechnet. Die Sprachdeltas können von der Vorrichtung des Benutzers dafür verwendet werden, die Stimme, die der Sender zur Darstellung der Mitteilung gewählt hat, nachzubilden.
  • Bei noch einer anderen Ausführungsform wird der Vorrichtung des Senders eine Softwareanwendung bereitgestellt, die zur Bestimmung der Sprachcharakteristiken des Senders verwendet wird. Die Anwendung fordert den Benutzer auf, einen Textabschnitt zu sprechen. Der Textabschnitt ist vorzugsweise eine vorherbestimmte Phrase oder ein vorherbestimmter Absatz, er kann jedoch ebenfalls eine beliebige Phrase oder ein beliebiger Absatz sein, der vom Sender gewählt wird. Gegenwärtig ist keine bevorzugte Phrase erstellt worden, jedoch ist Fachleuten ersichtlich, dass die Phrase die Charakteristiken einkapseln sollte, die erfasst werden sollen, um ein exaktes Erfassen der Sprachcharakteristiken zu ermöglichen.
  • Bei der vorliegenden Ausführungsform sind mehrere Sprachcharakteristiken zur Überwachung durch die Software definiert. Die Sprachcharakteristiken, die zur Definierung der Stimme des Senders verwendet werden und die von der Software überwacht werden, umfassen diejenigen, die oben ausführlich beschrieben wurden. Zusätzliche Sprachcharakteristiken sind Durchschnittsfachleuten ersichtlich. Des Weiteren können unterschiedliche Ausführungsformen je nach Wunsch verschiedene Kombinationen dieser Sprachcharakteristiken verwenden.
  • Wie bei den vorangehenden Ausführungsformen können die Sprachcharakteristiken entweder als Satz von Sprachcharakteristiken oder als Reihe von Sprachdeltas, die zwischen der gesprochenen Stimme und einer Standardstimme berechnet werden, zur Vorrichtung des Benutzers übertragen werden. Die Sprachcharakteristiken können von der Vorrichtung des Benutzers dafür vewendet werden, die Stimme nachzubilden, die von der Software überwacht wird, um die Mitteilung darzustellen.
  • Bei noch einer anderen Ausführungsform wird der Vorrichtung des Senders eine Softwareanwendung bereitgestellt, die zur Überwachung der Sprache des Senders während der Konversation verwendet wird. Diese Ausführungsform ist besonders nützlich, wenn der Sender die Vorrichtung für andere Sprachzwecke verwendet, wie beispielsweise ein Mobiltelefon oder eine Sprachaufzeichnungsvorrichtung. Die Softwareanwendung überwacht die Sprache des Senders und stellt die Sprachcharakteristiken dementsprechend dynamisch ein. Wenn der Sender die Mitteilung überträgt, kann die neueste Version der Sprachcharakteristiken entweder als Satz von Sprachcharakteristiken oder als Reihe von Sprachdeltas, die zwischen der gesprochenen Stimme und einer Standardstimme berechnet werden, zur Vorrichtung des Benutzers übertragen werden. Die Sprachcharakteristiken können von der Vorrichtung des Benutzers dafür verwendet werden, die Stimme wiederzugeben, die von der Software zur Darstellung der Mitteilung überwacht wird.
  • Die Sprachcharakteristiken des Senders werden zusammen mit der Mitteilung übertragen. Für E-Mails können die Sprachcharakteristikinformationen in einen speziellen Anfangsblock oder eine digitale Signatur eingebettet werden. Für die Sofortmitteilungsübermittlung können die Sprachcharakteristikinformationen in den Anfangsblock der Mitteilung eingebettet werden. Andere Übertragungsweisen sind Fachleuten ersichtlich.
  • Des Weiteren kann die Standardstimme zusammen mit den Sprachcharakteristiken übertragen werden, wenn die Sprachcharakteristiken durch Sprachdeltas dargestellt werden. Dies kann dazu verwendet werden, eine konsistente Bezugsstimme sicherzustellen, wenn die Vorrichtung des Benutzers versucht, während der Darstellung der Mitteilung die Stimme des Senders nachzuahmen.
  • Die Vorrichtung des Benutzers umfasst einen Speicher zum Speichern der Sprachcharakteristikinformationen, die dem Sender der Textmitteilung zugeordnet sind, sowie einen Prozessor zur Synthetisierung einer Ausgabestimme gemäß den Sprachcharakteristikinformationen. Die Vorrichtung umfasst des Weiteren einen Ausgang für die hörbare Darstellung der Textmitteilung für den Benutzer unter Verwendung der Ausgabestimme. Typischerweise erfolgt die Ausgabe in Form von einem oder mehreren Sprechern. Jedoch kann die Vorrichtung die Stimme an eine externe Vorrichtung zur hörbaren Ausgabe über eine verdrahtete oder drahtlose Verbindung ausgeben. Zum Beispiel kann ein in einem Fahrzeug verwendetes intelligentes Mobiltelefon mit einer BluetoothTM-Verbindung ein Signal an das Audiosystem des Fahrzeugs ausgeben. Das Audiosystem des Fahrzeugs gibt seinerseits die Stimme unter Verwendung des Lautsprechersystem des Fahrzeugs aus.
  • Wenn der Benutzer wählt, die Mitteilung anzuhören anstatt sie zu lesen, werden die zusammen mit der Mitteilung übertragenen Sprachcharakteristikinformationen dazu verwendet, die Mitteilung darzustellen. Abhängig von der Implementierung wird die Stimme des Senders als Satz von Sprachcharakteristikinformationen oder als Reihe von Sprachdeltas dargestellt. Die Vorrichtung des Benutzers verwendet die Sprachcharakteristikinformationen, um die Stimme des Senders nachzuahmen und dem Benutzer die Mitteilung darzustellen.
  • Bei der Darstellung der Mitteilung kann die Vorrichtung des Benutzers ebenfalls bekannte Textsymbole verwenden, um die Sprachcharakteristiken während der Wiedergabe zu verändern. Zum Beispiel sind Emoticons eine bekannte Form der Darstellung von Emotionen unter Verwendung von Symbolen. Zum Beispiel wird ein "Smiley" häufig als ":)" dargestellt. Wenn ein Smiley im Text der Mitteilung vorhanden ist, kann der Ton der Stimme verändert werden, um die Emotion des Senders anzugeben. Wie Fachleuten ersichtlich ist, gibt es viele mögliche Emoticons, die zur Darstellung einer Vielzahl von Emotionen verwendet werden können.
  • In sämtlichen zuvor beschriebenen Ausführungsformen werden die Sprachcharakteristiken des Senders vom Sender definiert. Bei einer alternativen Ausführungsform können die Sprachcharakteristiken des Senders ebenfalls vom Benutzer definiert werden. Wenn der Sender oder die Senderin seine oder ihre Sprachcharakteristiken nicht definiert oder nicht definieren kann, kann der Benutzer immer noch bestimmte Sprachcharakteristiken definieren, um den Sender darzustellen.
  • Bei der vorliegenden Ausführungsform kann der Benutzer einem Senderetikett, wie beispielsweise einer E-Mail-Adresse oder einem Sofortmitteilungsbenutzeretikett, Sprachcharakteristikinformationen zuordnen. Wenn der Benutzer eine Mitteilung von einem Sender empfängt, die mit dem Senderetikett übereinstimmt, werden dementsprechend die Sprachcharakteristikinformationen zur Darstellung der Mitteilung verwendet. Ebenso wie bei der zuvor beschriebenen Auswahl von Ausführungsformen kann der Benutzer die Sprachcharakteristiken so wählen, dass sie die Stimme des Senders am besten darstellen.
  • Des Weiteren kann der Benutzer über eine Softwareanwendung zum Analysieren der Stimme eines Senders in der Vorrichtung des Benutzers verfügen. Diese kann zum Beispiel angewendet werden, wenn die Vorrichtung des Benutzers eine Telefonfunktionalität umfasst. Zusätzlich zu der E-Mail-Adresse des Senders kann das Senderetikett ebenfalls Informationen wie beispielsweise die Telefonnummern des Senders umfassen. Wenn der Benutzer am Telefon ist, kann der Sender über das Telefon identifiziert werden, wodurch der Software ermöglicht wird, die Sprachcharakteristiken des Senders dynamisch zu aktualisieren.
  • Obwohl bevorzugte Ausführungsformen der Erfindung hierin beschrieben worden sind, ist Fachleuten ersichtlich, dass Variationen daran vorgenommen werden können, ohne vom Bereich der angehängten Ansprüche abzuweichen.
  • Übersetzung der Figuren
  • 2
  • 202
    Sprachcharakteristikinformationen erfassen
    204
    Erfasste Sprachcharakteristikinformationen übertragen
    206
    Erfasste Sprachcharakteristikinformationen zur Darstellung der Mitteilung
    verwenden

Claims (11)

  1. Kommunikationsvorrichtung (102) zur hörbaren Ausgabe einer empfangenen Textmitteilung an einen Benutzer, wobei die Vorrichtung (102) Folgendes umfasst: Mittel zum Abrufen von Daten, die Sprachcharakteristikinformationen darstellen, die einem Sender der Textmitteilung zugeordnet sind, wobei die Daten, die die Sprachcharakteristikinformationen darstellen, die Sprachcharakteristikinformationen als eine Gruppe von Sprachdeltas definieren und jedes Sprachdelta eine Differenz zwischen einer gewünschten Sprachcharakteristik und einer entsprechenden vorherbestimmten Sprachcharakteristik einer Standardstimme darstellt; einen Prozessor zum Synthetisieren einer Ausgabestimme gemäß den Sprachcharakteristikinformationen und eine Ausgabevorrichtung, um dem Benutzer die Textmitteilung unter Verwendung der Ausgabestimme hörbar zu präsentieren.
  2. Kommunikationsvorrichtung nach Anspruch 1, wobei die Textmitteilung eine E-Mail-Mitteilung oder eine Instant-Mitteilung ist.
  3. Verfahren zur hörbaren Ausgabe einer empfangenen Textmitteilung an einen Benutzer mit Hilfe einer Kommunikationsvorrichtung (102), wobei die Textmitteilung von einem Sender empfangen wird und das Verfahren Folgende Schritte umfasst: Empfangen einer Textmitteilung, die hörbar präsentiert werden soll; Abrufen einer Ausgabestimme zur Präsentation der Textmitteilung, wobei die Ausgabestimme unter Verwendung vorherbestimmter Sprachcharakteristikinformationen synthetisiert wird, um die Stimme des Senders darzustellen, die vorherbestimmten Sprachcharakteristikinformationen durch eine Gruppe von Sprachdeltas bestimmt werden und jedes Sprachdelta eine Differenz zwischen einer gewünschten Sprachcharakteristik und einer entsprechenden vorherbestimmten Sprachcharakteristik einer Standardstimme darstellt; und Verwenden der Ausgabestimme, um dem Benutzer die Textmitteilung hörbar zu präsentieren.
  4. Verfahren nach Anspruch 3, das des Weiteren den Schritt der Auswahl von Werten zur Bestimmung der Sprachcharakteristikinformationen umfasst.
  5. Verfahren nach Anspruch 3 oder Anspruch 4, das des Weiteren den Schritt der automatischen Bestimmung von Werten für die vorherbestimmten Sprachcharakteristikinformationen umfasst.
  6. Verfahren nach einem der Ansprüche 3 bis 5, wobei die Sprachcharakteristikinformationen von dem Sender definiert werden und zum Benutzer übertragen werden.
  7. Verfahren nach Anspruch 6, wobei die Sprachcharakteristikinformationen zusammen mit der Mitteilung zu dem Benutzer übertragen werden.
  8. Verfahren nach einem der Ansprüche 3 bis 5, wobei die Sprachcharakteristikinformationen von dem Benutzer definiert werden.
  9. Verfahren nach einem der Ansprüche 3 bis 7, wobei die vorherbestimmte Sprachcharakteristik einer Standardstimme zusammen mit den Sprachdeltas beitragen wird.
  10. Computerlesbares Medium, das Befehlsmittel umfasst, die, wenn sie in einem Computer oder einer Kommunikationsvorrichtung (102) ausgeführt werden, den Computer oder die Kommunikationsvorrichtung veranlassen, das Verfahren nach einem der Ansprüche 3 bis 9 zu implementieren.
  11. Kommunikationssystem (100), das mindestens eine Kommunikationsvorrichtung (102) nach Anspruch 1 oder Anspruch 2 umfasst.
DE602005001111T 2005-03-16 2005-03-16 Verfahren und System zur Personalisierung von Text-zu-Sprache Umsetzung Active DE602005001111T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP05102059A EP1703492B1 (de) 2005-03-16 2005-03-16 Verfahren und System zur Personalisierung von Text-zu-Sprache Umsetzung

Publications (2)

Publication Number Publication Date
DE602005001111D1 DE602005001111D1 (de) 2007-06-21
DE602005001111T2 true DE602005001111T2 (de) 2008-01-10

Family

ID=34938992

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602005001111T Active DE602005001111T2 (de) 2005-03-16 2005-03-16 Verfahren und System zur Personalisierung von Text-zu-Sprache Umsetzung

Country Status (5)

Country Link
EP (2) EP1804237A1 (de)
AT (1) ATE362164T1 (de)
CA (1) CA2539649C (de)
DE (1) DE602005001111T2 (de)
HK (1) HK1094913A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008132533A1 (en) * 2007-04-26 2008-11-06 Nokia Corporation Text-to-speech conversion method, apparatus and system
JP2012512424A (ja) * 2008-12-15 2012-05-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成のための方法および装置
EP2205010A1 (de) * 2009-01-06 2010-07-07 BRITISH TELECOMMUNICATIONS public limited company Messaging
EP2608195B1 (de) * 2011-12-22 2016-10-05 BlackBerry Limited Sichere Text-zu-Sprache-Synthese für tragbare elektronische Vorrichtungen
US9166977B2 (en) 2011-12-22 2015-10-20 Blackberry Limited Secure text-to-speech synthesis in portable electronic devices
US9117451B2 (en) 2013-02-20 2015-08-25 Google Inc. Methods and systems for sharing of adapted voice profiles
GB2516942B (en) * 2013-08-07 2018-07-11 Samsung Electronics Co Ltd Text to Speech Conversion
EP3113175A1 (de) * 2015-07-02 2017-01-04 Thomson Licensing Verfahren zur umwandlung von text zu individueller sprache und vorrichtung zur umwandlung von text zu individueller sprache
US9830903B2 (en) * 2015-11-10 2017-11-28 Paul Wendell Mason Method and apparatus for using a vocal sample to customize text to speech applications
FR3136884A1 (fr) * 2022-06-28 2023-12-22 Orange Compression audio à très bas débit

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3287281B2 (ja) * 1997-07-31 2002-06-04 トヨタ自動車株式会社 メッセージ処理装置
FI115868B (fi) * 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi
US6801931B1 (en) * 2000-07-20 2004-10-05 Ericsson Inc. System and method for personalizing electronic mail messages by rendering the messages in the voice of a predetermined speaker
US7177801B2 (en) 2001-12-21 2007-02-13 Texas Instruments Incorporated Speech transfer over packet networks using very low digital data bandwidths

Also Published As

Publication number Publication date
EP1804237A1 (de) 2007-07-04
EP1703492B1 (de) 2007-05-09
CA2539649A1 (en) 2006-09-16
DE602005001111D1 (de) 2007-06-21
ATE362164T1 (de) 2007-06-15
HK1094913A1 (en) 2007-04-13
EP1703492A1 (de) 2006-09-20
CA2539649C (en) 2012-01-10

Similar Documents

Publication Publication Date Title
DE602005001111T2 (de) Verfahren und System zur Personalisierung von Text-zu-Sprache Umsetzung
US7706510B2 (en) System and method for personalized text-to-voice synthesis
CN102089804B (zh) 声音合成模型生成装置、声音合成模型生成系统、通信终端以及声音合成模型生成方法
CN105869626B (zh) 一种语速自动调节的方法及终端
US20060069567A1 (en) Methods, systems, and products for translating text to speech
US20070203703A1 (en) Speech Synthesizing Apparatus
DE112005000924T5 (de) Stimme über Short Message Service
US8315873B2 (en) Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same
DE102008015187A1 (de) Sprachgesteuertes Freisprech-Telefonsystem zum akustischen Verkünden von Fahrzeugkomponenten-Informationen für Fahrzeugbenutzer in Reaktion auf durch die Benutzer gesprochene Anforderungen
US7031924B2 (en) Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium
KR20150017662A (ko) 텍스트-음성 변환 방법, 장치 및 저장 매체
CN113724683A (zh) 音频生成方法、计算机设备及计算机可读存储介质
US9087512B2 (en) Speech synthesis method and apparatus for electronic system
CN116030788B (zh) 一种智能语音交互方法及装置
KR102134990B1 (ko) 주파수 섹션 분석을 통한 음성 트레이닝 시스템
JP2007259427A (ja) 携帯端末装置
JP2004185055A (ja) 電子メールシステム及び通信端末
JP7110057B2 (ja) 音声認識システム
JP7296214B2 (ja) 音声認識システム
KR101129124B1 (ko) 개인 음성 특성을 이용한 문자음성변환 단말기 및 그에사용되는 문자음성변환 방법
DE102016002496A1 (de) Verfahren und System zum Wiedergeben einer Textnachricht
JP5326539B2 (ja) 留守番電話システム、留守番電話サービスサーバ及び留守番電話サービス方法
KR20180034927A (ko) 통화 음성을 분석하는 통신 단말기
EP1845738B1 (de) Verfahren, Rechnereinheit sowie Kommunikationssystem zur Benachrichtigung eines Nutzers eines elektronischen Endgeräts
JP2005123869A (ja) 通話内容書き起こしシステムおよび通話内容書き起こし方法

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: MERH-IP, 80336 MUENCHEN