EP1248251A2

EP1248251A2 - Verfahren und System zur automatischen Umsetzung von Textnachrichten in Sprachnachrichten

Info

Publication number: EP1248251A2
Application number: EP02003909A
Authority: EP
Inventors: Volker Luegger
Original assignee: Siemens AG
Current assignee: Unify GmbH and Co KG
Priority date: 2001-04-06
Filing date: 2002-02-21
Publication date: 2002-10-09
Also published as: DE10117367A1; US20020169610A1; EP1248251A3; DE10117367B4

Abstract

Die vorliegende Erfindung bezieht sich auf ein Verfahren sowie ein System, das beliebige geschriebene maschinenlesbare Text-Nachrichten (5), beispielsweise E-Mails oder Fax-Nachrichten, über ein geeignetes akustisches Wiedergabesystem (2), (4), (7), beispielsweise über ein Mobiltelephon, auf Grundlage eines zuvor generierten Sprachprofils akustisch ausgibt. Zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten werden Sprachprobedaten eines Benutzers analysiert (S1) und auf Grundlage dieser Analyse ein Sprachprofil (3) erstellt. Durch die dadurch mögliche Sprachausgabe mit einer natürlichen und vor allem vertrauten Stimme wird ein Befremden beim Hören der ausgegebenen Sprache vermieden..

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren sowie ein System, das beliebige geschriebene maschinenlesbare Text-Nachrichten, beispielsweise E-Mails oder Fax-Nachrichten, über ein geeignetes akustisches Wiedergabesystem, beispielsweise über ein Mobiltelephon, auf Grundlage eines zuvor generierten Stimmenprofils akustisch ausgibt.

Nach dem Stand der Technik ist es bekannt, in einer Multimedia-Umgebung Inhalte von E-Mails, Fax-Nachrichten oder sonstigen Texten mittels fest vorgegebener synthetisch erzeugter Stimmen auszugeben. Um die Kommunikation in einer Multimedia-Umgebung (in der Literatur wird in diesem Zusammenhang häufig von einem "Unified Message System" gesprochen) so natürlich wie möglich erscheinen zu lassen, ist es von Interesse, die entsprechende Text-Nachricht mit der Stimme des jeweiligen Autors auszugeben.

Aus der DE 198 41 683 A1 ist eine Vorrichtung und ein Verfahren zur digitalen Sprachbearbeitung bekannt. Die in eine Sprachausgabe umsetzbaren Wörter sind in einer Tabelle (Wörterbuch) zusammen mit Informationen zu ihrer Aussprache (phonetische Einträge, phonetische Entsprechungen) verzeichnet. Ein Übersetzer erzeugt aus den phonetischen Einträgen der einzelnen Worte eine Sprachnachrichten-Datei, die in einem Editor (Editiereinrichtung) in Form einer Lautschrift angezeigt und bearbeitet werden kann. Zur Bearbeitung werden Parameter (Modifikatoren) hinzugefügt oder verändert. Die Parameter verschiedener Sprechertypen (Mann, Frau, Kind etc.) sind in jeweils einem Sprachprofil (Sprechermodell) zusammengefasst und als Standardmodelle vorgegeben. Durch Anpassung der Parameter gestaltet (editiert) der Benutzer die "Stimme" der anschließenden synthetischen Sprachausgabe bis zum gewünschten qualitativen Zustand.

Bei dem bekannten Verfahren hat sich als nachteilig erwiesen, dass die erzeugte, natürlichen Stimmen nachempfundene Sprachausgabe meist immer noch künstlich oder fremd klingt und dem Hörer nicht vertraut ist.

Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, eine Sprachwiedergabe von maschinenlesbaren Texten mit synthetisch erzeugten Stimmen so zu erreichen, dass ein Befremden beim Hören der erzeugten Stimme vermieden wird.

Diese Aufgabe wird gemäß der Erfindung durch die Merkmale der unabhängigen Ansprüche gelöst. Die abhängigen Ansprüche bilden den zentralen Gedanken in vorteilhafter Weise weiter.

Erfindungsgemäß wird vorgeschlagen, dass zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten eines Benutzers Sprachprobedaten des Benutzers analysiert werden und auf Grundlage dieser Analyse ein Sprachprofil erstellt wird. Auf Grundlage des erstellten Sprachprofiles können beliebige Text-Nachrichtendaten angenähert, also gut wiedererkennbar, mit der Stimme des Benutzers auszugeben werden. Insbesondere ist ein Erkennen des Absenders anhand der Stimme möglich, wenn die Text-Nachrichtendaten den Stimmen ensprechend zugeordnet werden.

Das Erstellen des Sprachprofiles kann dabei beispielsweise durch einen Vergleich eines schriftlichen Referenz-Textes mit einem durch akustische Artikulation eines Sprechers erzeugten Referenz-Text erfolgen.

Erfindungsgemäß wird weiterhin ein System zur Umsetzung von Text-Nachrichten in Sprach-Nachrichten beansprucht. Dieses weist einen Sprachanalysator auf, der auf Grundlage einer Analyse von Sprachprobedaten ein Sprachprofil für eingegebene Sprachprobedaten erzeugt. Außerdem enthält dieses System einen Sprachgenerator, der auf Grundlage des Sprachprofils eine beliebige Text-Nachricht in synthetische Sprachprobedaten umsetzt.

Weitere Vorteile, Merkmale und Eigenschaften der vorliegenden Erfindung werden im folgenden anhand eines Ausführungsbeispiels unter Bezugnahme auf die begleitende Zeichnung näher erläutert.

Die Figur zeigt schematisch eine Technik zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten.

In der Figur ist schematisch ein Verfahren bzw. ein System zur automatischen Umsetzung von Text-Nachrichten in Sprach-Nachrichten dargestellt. Ein von einer beliebigen Person gesprochener Text 1 wird in einem Schritt S1 von einem Analysator 2 analysiert. Dies geschieht in der Regel dadurch, dass die akustischen Signale analog registriert werden und durch einen A/D-Wandler in digitale Sprachdateien umgesetzt werden. Mit einer entsprechenden Software kann in einem Schritt S3 auf Grundlage der erfolgten Analyse der digitalen Sprachdateien ein Sprachprofil 3 dieser Person erzeugt werden. Dabei kann der gesprochene Text 1 ein beliebiger Freitext oder ein Referenztext 8 sein, der in einem Schritt S2 im Rahmen der Analyse mit der schriftlichen Form des Referenztextes 8 verglichen wird.

Auf Grundlage des Sprachprofils 3 lässt sich im folgenden jede beliebige Text-Nachricht 5 über einen Sprachgenerator 4 in synthetische Sprachnachrichtendaten 6 übersetzen (Schritt S5 und Schritt S6). Die Textnachricht 5 kann anschließend in einem Schritt S7 gemäß dem erstellten Sprachprofil 3 akustisch ausgegeben werden.

So kann anhand einer Sprachprobe 1 eines Sprechers über das dadurch gewonnene Sprachprofil 3 ein Sprachgenerator 4 für eine synthetisch erzeugte Sprache so eingestellt werden, dass beliebige Texte 5 mit der Stimme dieses Sprechers akustisch ausgegeben werden können. Durch die dadurch mögliche Sprachausgabe mit einer natürlichen und vor allem vertrauten Stimme wird ein Befremden beim Hören der ausgegebenen Sprache vermieden. Natürlich ist es auch denkbar, dass dem Sprachgenerator Sprachproben verschiedener Personen und damit mehrere Sprachprofile zur Verfügung stehen. Damit ist eine Auswahl verschiedener Sprecher möglich.

Dies ist insbesondere innerhalb von Multimediaumgebungen von großem Wert, wenn nämlich die Verknüpfung von synthetisch erzeugter Sprache zu Dokumenten des Sprechers automatisch erstellt werden kann. Der Hörer kann den Absender der Nachricht dann anhand der Stimme erkennen, was einer angenehmen Kommunikation mit modernen technischen Mitteln entspricht. Dabei ist es zudem äußerst vorteilhaft, dass die Profilgenerierung für die Ausgabe der Sprache automatisch aus einer beliebigen Sprachprobe innerhalb des Multimediaumfeldes erfolgen kann.

Normalerweise werden innerhalb eines einheitlichen Nachrichten-Systems (Unified Message System) verschiedene Dokumente, wie z.B. Sprachnachrichten (Anrufbeantworter), E-Mails, Faxnachrichten usw., des gleichen Autors verwaltet. Um beispielsweise E-Mails innerhalb dieses Systems z.B. auf einem Mobiltelephon auszugeben, wird der E-Mail-Text erfindungsgemäß in Sprache übersetzt. Vorteilhafterweise kann dabei mit Hilfe einer in demselben System eingegangenen Sprach-Nachricht 1 des gleichen Autors und des daraus generierten Stimmenprofils 3 die E-Mail-Nachricht mit der Stimme dieses Autors ausgegeben werden. Bei entsprechender Vorlage einer Sprachprobe anderer Personen, wie z.B. prominenter Personen, wäre auch eine Wiedergabe der Dokumente mit deren Stimme möglich.

Im zuvor beschriebenen Beispiel sendet also ein Autor einem Empfänger eine E-Mail-Nachricht. Als Zieladresse gibt der Autor die Telefonnummer des Empfängers an. Das verwendete Unified Message System stellt fest, dass als Empfänger kein E-Mail-Anschluß, sondern ein Fernsprechanschluß ausgewählt wurde und setzt daher den eingegebenen Text in eine Sprachnachricht um. Dazu wird ein Sprachprofil verwendet, welches zuvor anhand einer Sprechprobe dieses Autors erstellt worden ist. Damit wird die Stimme der synthetisch erzeugten Sprachausgabe der natürlichen Stimme des Autors soweit angenähert, dass der Empfänger die synthetische Stimme als die vertraute Stimme der sendenden Person erkennt. Das Unified Message System veranlasst nun den Aufbau einer Verbindung zum Fernsprechanschluß des Empfängers und gibt die Sprachnachricht mit der Stimme des Autors aus.

Claims

Verfahren zur automatischen Umsetzung von Text-Nachrichten (5) in Sprach-Nachrichten (6), mit den folgenden Schritten:

Erstellen (S3) eines Sprachprofils (3) und

Umsetzen (4) von eingegebenen Text-Nachrichtendaten (5) in synthetische Sprach-Nachrichtendaten (6) auf Grundlage des Sprachprofils (3),

dadurch gekennzeichnet, dass das Sprachprofil (3) nach Analyse (S1 von Sprachprobedaten (1) eines Benutzers auf Grundlage der vorgenommenen Analyse (S1) erstellt wird, um den Text angenähert mit der Stimme des Benutzers auszugeben.
Verfahren nach Anspruch 1,
dadurch gekennzeichnet, dass das Erstellen des Sprachprofils (3) auf Grundlage eines Vergleichs (S2) von Referenz-Textdaten (8) mit Referenz-Sprachprobedaten (1) erfolgt, wobei die Referenz-Sprachprobedaten (1) durch akustische Wiedergabe der Referenz-Textdaten (8) durch einen Sprecher erzeugt werden.
System zur Umsetzung von Text-Nachrichten (5) in Sprach-Nachrichten (6),

mit einem Sprachanalysator (2), der auf Grundlage einer Analyse (S1) von Sprachprobedaten (1) ein Sprachprofil (3) für eingegebene Sprachprobedaten (1) erzeugt, und

mit einem Sprachgenerator (4), der auf Grundlage des Sprachprofils (3) eine beliebige Text-Nachricht (5) in synthetische Sprachprobedaten (6) umsetzt.
System nach Anspruch 3,
dadurch gekennzeichnet, dass der Sprachgenerator (4) dazu ausgelegt ist, das Sprachprofil (3) auf Grundlage eines Vergleichs eines schriftlichen Referenz-Textes (8) mit der von einem Benutzer gesprochenen Form (1) dieses Referenz-Textes (8) zu erzeugen.
System nach Anspruch 3 oder 4,
dadurch gekennzeichnet, dass in Multimediaumgebungen der Sprachanteil von Sprachnachrichten (1) automatisch analysiert wird (S1) und zur akustischen Wiedergabe (7) von Textnachrichten (5) verwendet wird.
Mobiltelephon, aufweisend ein System nach Anspruch 3, 4 oder 5,
dadurch gekennzeichnet, dass die Text-Nachrichten (5) Dokumente in einer Multimediaumgebung, beispielsweise E-Mail-Texte, sind, die auf dem Mobiltelephon in der Sprache gemäß dem zuvor erzeugten Sprachprofil (3) akustisch ausgegeben werden.