DE102004012208A1

DE102004012208A1 - Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme

Info

Publication number: DE102004012208A1
Application number: DE102004012208A
Authority: DE
Inventors: Horst-Udo Hain; Klaus Lukas
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2004-03-12
Filing date: 2004-03-12
Publication date: 2005-09-29
Also published as: US7664645B2; US20050203743A1

Abstract

Die Stimme einer synthetischen Sprachausgabe kann individualisiert und beispielsweise an eine Benutzerstimme, die Stimme eines Kommunikationspartners oder die Stimme einer berühmten Persönlichkeit angepasst werden. Dadurch lassen sich insbesondere mobile Endgeräte originell individualisieren und beispielsweise Textmeldungen mit einer gewünschten Stimme vorlesen.

Description

Die Emotionalisierung von mobilen Endgeräten ist ein zunehmender Faktor in der Verkaufsstrategie. Personalisierungen durch Logos und Klingeltöne sowie flexible Oberflächengestaltungen und individuelle Designs von Handys rücken hierbei immer mehr in den Vordergrund. Auch die sprachliche Interaktion ermöglicht neue Kommunikationsstrukturen zum Endgerät und erlaubt damit immer natürlichere und individuellere Interaktionen.

Neben der komfortablen sprachlichen Eingabe ist auch die sprachliche Ausgabe ein wichtiges zukünftiges Produktmerkmal, da hierdurch eine Hands-Free-Kommunikation realisiert werden kann. Diese Hands-Free-Kommunikation erlaubt durch akustisches Feedback eine sprachliche Interaktion ohne manuellen Eingriff und kann daher beispielsweise in Fahrzeugumgebungen, bei eingestecktem Handy oder beim Joggen angewandt werden.

Derzeit sind verfügbare Text-to-Speech-Systeme entweder mit Standardsprechern oder mit Corporate Voices ausgestattet, die eine produktspezifische Ausrichtung der Sprache und des Text-to-Speech-Sprechers erlauben.

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, eine Möglichkeit der Individualisierung der Sprachausgabe anzugeben, die Kunden von mobilen Endgeräten einen neuen Kaufanreiz bietet.

Diese Aufgabe wird durch die in den unabhängigen Patentansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den abhängigen Patentansprüchen.

Dementsprechend wird in einem Verfahren zur Sprachsynthese auf einem Erzeugnis eine Synthesestimme, die zur Ausgabe der synthetisierten Sprache dient, an eine Zielstimme angepasst, so dass die Synthesestimme der Zielstimme ähnlich ist.

Die Zielstimme ist insbesondere die Stimme des Benutzers des Erzeugnisses.

Oft ist ein explizites Training zur Aufnahme der eigenen Stimme als Grundlage für eine neue synthetisierte Stimmausgabe inakzeptabel. Deshalb ist es vorteilhaft, wenn Daten zum Anpassen der Synthesestimme an die Zielstimme aus vom Benutzer ohnehin zu anderen Zwecken als dem Anpassen der Synthesestimme an die Zielstimme in das Erzeugnis eingesprochenen Sprachsignalen gewonnen werden. Die Daten zum Anpassen der Synthesestimme an die Zielstimme sind insbesondere Transformationsparameter.

Vorzugsweise ist das Erzeugnis ein Kommunikationserzeugnis, in das der Benutzer einspricht, um mit einem realen menschlichen Kommunikationspartner zu kommunizieren. Die Daten zum Anpassen der Synthesestimme an die Zielstimme werden dann aus vom Benutzer zur Kommunikation mit dem Kommunikationspartner in das Erzeugnis eingesprochenen Sprachsignalen gewonnen.

Alternativ oder ergänzend kann die Zielstimme die Stimme des Kommunikationspartners sein, mit dem der Benutzer über das Erzeugnis kommuniziert.

Ein explizites Training zur Aufnahme der Stimme des Kommunikationspartners als Grundlage für eine neue synthetisierte Stimmausgabe wird im Hinblick auf den Kommunikationspartner in der Regel nicht durchzuführen sein. Deshalb werden Daten zum Anpassen der Synthesestimme an die Zielstimme vorzugsweise aus vom Kommunikationspartner zur Kommunikation mit dem Benutzer eingesprochenen und übermittelten Sprachsignalen gewonnen.

Insbesondere wird die Synthesestimme zumindest so weit an die Zielstimme angepasst, dass das Geschlecht des Kommunikationspartners erkennbar ist.

Bei der Kommunikation über ein Kommunikationserzeugnis verfügt heute praktisch jeder Kommunikationspartner über eine Kommunikationskennung, beispielsweise in Form einer Telefonnummer oder URL. Wird diese Kommunikationskennung der Zielstimme zugewiesen, so kann, wenn ein Anpassen der Synthesestimme an die Zielstimme durchgeführt worden ist, ein Anruf des Kommunikationspartners mit einer seiner Stimme ähnlichen Synthesestimme angekündigt und/oder eine Textmeldung des Kommunikationspartners mit einer seiner Stimme ähnlichen Synthesestimme vorgelesen werden.

Wenn die Performance des Erzeugnisses nicht ausreicht, um Kommunikation und Anpassen der Synthesestimme an die Zielstimme gleichzeitig durchzuführen, können die Sprachsignale in Form von Sprache repräsentierenden Signale während der Kommunikation gespeichert werden. Nach Ende der Kommunikation werden dann aus diesen gespeicherten Sprachsignalen die Daten zum Anpassen der Synthesestimme an die Zielstimme gewonnen.

Erfahrungsgemäß werden Mobiltelefone immer seltener zum Telefonieren benutzt. Dies kann zu dem Problem führen, dass keine Stimme eines Kommunikationspartners mehr zur Verfügung steht. Deshalb kann alternativ oder ergänzend die Zielstimme die Stimme eines Dritten sein, beispielsweise einer bekannten Persönlichkeit. Die Daten zum Anpassen der Synthesestimme an die Zielstimme werden dann aus über ein Netzwerk, beispielsweise das Internet, geladenen Informationen gewonnen, die die Zielstimme, beispielsweise in Form einer Aufnahme, repräsentieren.

Um den Vorteil der Individualisierung besonders gut nutzen zu können, handelt es sich bei dem Erzeugnis vorzugsweise um Em bedded Hardware, ein mobiles Endgerät, einen Personal Digital Assistant und/oder ein Erzeugnis mit Mobiltelefonfunktion.

Ein Erzeugnis weist Mittel zur Sprachsynthese und Mittel zum Anpassen einer Synthesestimme an eine Zielstimme zur Ausgabe von synthetischer Sprache an eine Zielstimme auf. Vorteilhafte Ausgestaltungen des Erzeugnisses ergeben sich analog zu den vorteilhaften Ausgestaltungen des Verfahrens und umgekehrt. Dazu werden im Erzeugnis entsprechende Mittel und/oder Elemente vorgesehen, die eingerichtet sind, um jeweils einen oder mehrere Verfahrensschritte auszuführen.

Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.

Weitere Vorteile und Merkmale der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Zeichnung. Dabei zeigt die Figur ein Ablaufdiagramm eines Verfahrens zur Sprachsynthese.

Das Ausführungsbeispiel zur Sprachsynthese basiert darauf, dass mit einem Handy geführte Telefongespräche die Grundlage für eine Stimmadaption bilden und somit das Sprachsynthesesystem des mobilen Endgeräts mit einer der Stimme des Benutzers oder der Stimme des Kommunikationspartners ähnlichen Stimme spricht. Bei diesen Voice-Conversion-Verfahren wird die ursprüngliche Synthesestimme durch Manipulation des Sprachsignals an eine Zielstimme angepasst.

Da das Handy den Mikrofonkanal der Benutzerstimme und den Lautsprecherkanal einer bestimmten Rufnummer zuordnen kann, ist ein dieser Stimme zugeordnetes Ablegen von Telefonatabschnitten mit den jeweiligen Stimminhalten möglich.

Von den Telefonatabschnitten, die brauchbare Stimmanteile enthalten, wird die Benutzerstimme zur Adaption in verschiedene Stimmmerkmale zerlegt und die Transformationswerte bzw. Warping-Werte werden ermittelt. Mit den Transformationswerten kann aus der vorgegebenen Standardstimme dann eine benutzerähnliche Stimme erzeugt werden. Das akustische Feedback erscheint dem Benutzer dadurch vertrauter und personalisierter.

Die angepasste Benutzerstimme kann zum Vorlesen von SMS, E-Mails oder Systemnachrichten verwendet werden.

Neben der Adaption auf den Benutzer kann das Verfahren auch für die Kommunikationspartner durchgeführt werden. Der Anruf eines Kommunikationspartners kann dadurch mit dessen Stimme oder zumindest einer ähnlich klingenden Stimme angekündigt werden.

Die Berechnung der Transformationsparameter aus den Telefonaten kann entweder zur Laufzeit durchgeführt werden oder, falls nicht genug Prozessorleistung verfügbar ist, während der akustischen Codierung/Decodierung nur gespeichert und zu einem späteren Stand-By-Zeitpunkt des Handys berechnet werden. Im letzteren Fall kann jedoch pro Telefonat aufgrund der Speicherbeschränkung möglicherweise nur ein kleiner Teil eines Telefonats ausgewertet werden.

Das Verfahren kann auch auf Datenmaterial von populären Personen angewandt werden und damit beispielsweise ein Download der synthetischen Sprache dieser Persönlichkeiten realisiert werden. Somit ist beispielsweise ein Vorlesen von SMSen mit der Stimme des Lieblingssängers, -schauspielers oder -politikers realisierbar.

Die Figur zeigt ein Ablaufdiagramm des Verfahrens zur Sprachsynthese. Im oberen Teil ist die Berechnung von Transformationsparametern (Daten) aus Gesprächsabschnitten dargestellt. Die Berechnung der Transformationsparameter für den Kommunikationspartner bzw. dessen Stimme erfolgt aus Sprachsignalen, die über den Ausgabekanal des Erzeugnisses zum Lautsprecher geleitet werden. Die Berechnung von Transformationsparametern für den Benutzer bzw. dessen Stimme als Zielstimme erfolgt durch die Auswertung von Sprachsignalen, die der Benutzer in den Eingabekanal mit Mikrofon eingibt.
Die Transformationsparameter werden Rufnummern zugeordnet und abgespeichert. So werden beispielsweise zum Benutzer die Parameter A, zur Telefonnummer 1 die Parameter B und zur Telefonnummer 2 die Parameter C abgespeichert.
Schließlich erfolgt die Verwendung der Transformationsparameter zur Sprachsynthese. Die Sprachsynthese wird mit Transformationsparametern des Benutzers bzw. der zugeordneten anrufenden Telefonnummer durchgeführt. Es erfolgt die Ausgabe der dem Benutzer bzw. dem Kommunikationspartner ähnlichen Stimme.
Durch die Bereitstellung einer Benutzer- und/oder kommunikationspartnerstimmähnlichen Sprachausgabe kann ein völlig neues Produktmerkmal für mobile Endgeräte angeboten werden. Gerade für das Marketing von emotionalen und benutzeradaptierten Produktmerkmalen bietet das vorgeschlagene Verfahren entscheidende Vorteile. Dabei ist besonders im Zusammenhang mit Avataren eine benutzer- und/oder kommunikationspartnerstimmähnliche Sprachausgabe interessant, beispielsweise beim Vorlesen von eingehenden SMS mit der Stimme des Senders und mit einer lippenanimierten Anzeige eines dazu passenden Calling-Face-Bildes, das ebenfalls auf den Sender personalisiert sein kann.
Das Verfahren kann vorhandene Sprachsynthesekomponenten nutzen und bedarf keiner spezifischen Zusatzhardware. Dadurch ist das Verfahren kostengünstig realisierbar. Wird das Feature von Benutzern nicht gewünscht, kann jederzeit die Standardstimme der Sprachsynthese wieder verwendet werden.
Für das Verfahren ist eine bestimmte Datenmenge von Gesprächsaufnahmen notwendig. Wird beispielsweise das noch notwendige Volumen dem Benutzer angezeigt, kann er selbst durch häufigeres Telefonieren die notwendige Datenmenge schneller erreichen und die Stimmqualität steigern bzw. weiter anpassen. Dies bietet wiederum für die Netzwerk-Provider ein interessantes Potential zur Erhöhung der Air-Time.

Claims

Verfahren zur Sprachsynthese auf einem Erzeugnis, bei dem eine Synthesestimme an eine Zielstimme angepasst synthetisiert wird.
Verfahren nach Anspruch 1, bei dem die Zielstimme die Stimme eines Benutzers des Erzeugnisses ist.
Verfahren nach Anspruch 2, bei dem Daten zum Anpassen der Synthesestimme an die Zielstimme aus von dem Benutzer in das Erzeugnis eingesprochenen Sprachsignalen gewonnen werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Erzeugnis ein Kommunikationserzeugnis ist.
Verfahren nach den Ansprüchen 3 und 4, bei dem die Daten zum Anpassen der Synthesestimme an die Zielstimme aus vom Benutzer zur Kommunikation in das Erzeugnis eingesprochenen Sprachsignalen gewonnen werden.
Verfahren nach Anspruch 4, bei dem die Zielstimme die Stimme eines Kommunikationspartners ist.
Verfahren nach Anspruch 6, bei dem Daten zum Anpassen der Synthesestimme an die Zielstimme aus vom Kommunikationspartner zur Kommunikation mit dem Benutzer übermittelten Sprachsignalen gewonnen werden.
Verfahren nach einem der Ansprüche 6 oder 7, bei dem der Kommunikationspartner eine Kommunikationskennung hat und die Kommunikationskennung der Zielstimme zugeordnet wird.
Verfahren nach einem der Ansprüche 5 oder 7, bei die Sprachsignale während der Kommunikation gespeichert und nach Ende der Kommunikation die Daten zum Anpassen der Synthesestimme an die Zielstimme aus den gespeicherten Sprachsignalen gewonnen werden.
Verfahren nach Anspruch 1, bei dem Daten zum Anpassen der Synthesestimme an die Zielstimme aus über ein Netzwerk geladenem Datenmaterial gewonnen werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Erzeugnis Embedded Hardware, ein mobiles Endgerät und/oder ein Gerät mit Mobiltelefonfunktion ist.
Erzeugnis mit – Mitteln zur Sprachsynthese – Mitteln zum Anpassen einer Synthesestimme zur Ausgabe von synthetisierter Sprache an eine Zielstimme.
Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen ein Verfahren nach einem der Ansprüche 1 bis 11 auf der Datenverarbeitungsanlage ausführbar ist.