DE10216322A1

DE10216322A1 - Stimmenkonverter

Info

Publication number: DE10216322A1
Application number: DE2002116322
Authority: DE
Original assignee: Individual
Current assignee: Individual
Priority date: 2002-04-13
Filing date: 2002-04-13
Publication date: 2003-11-06
Anticipated expiration: 2022-04-14
Also published as: DE10216322B4

Abstract

Es wird ein Stimmenkonverter (1) angegeben mit einem Eingang (8), einem Ausgang und dazwischen einem Umsetzer (4, 6, 7). DOLLAR A Man möchte eine Wandlung einer Stimme in eine möglichst naturgetreue andere Stimme erreichen. DOLLAR A Hierzu weist der Umsetzer (4, 6, 7) eine Spracherkennungseinrichtung (4), die Sprache in eine Zwischeninformation (6) wandelt, und eine Vorleseeinrichtung (7) auf, die die Zwischeninformation (6) mit einer synthetisch erzeugten Stimme vorliest.

Description

Die Erfindung betrifft einen Stimmenkonverter mit einem Eingang, einem Ausgang und dazwischen einem Umsetzer.
Ein Stimmenkonverter dient dazu, eine Sprache mit einer Stimme auszugeben, die sich von der Stimme des Sprechers unterscheidet. Beispielsweise möchte sich eine Frau am Telefon mit einer männlichen Stimme melden können, um die Gefahr von Belästigungen klein zu halten.
Es ist bekannt, Stimmen dadurch zu verändern, daß man den Umsetzer als Frequenzwandler ausbildet. Dies führt jedoch zu unbefriedigenden Ergebnissen. Man kann zwar die Tonlage der Stimme ändern. Dabei verändern sich aber gleichzeitig die Obertöne der Stimme, so daß am Ausgang eine als künstliche Stimme klar erkennbare Stimme ausgegeben wird.
Der Erfindung liegt die Aufgabe zugrunde, eine Wandlung einer Stimme in eine möglichst naturgetreue andere Stimme zu erreichen.
Diese Aufgabe wird bei einem Stimmenkonverter der eingangs genannten Art dadurch gelöst, daß der Umsetzer eine Spracherkennungseinrichtung, die Sprache in eine Zwischeninformation wandelt, und eine Vorleseeinrichtung aufweist, die die Zwischeninformation mit einer synthetisch erzeugten Stimme vorliest.
Mit dieser Ausgestaltung des Stimmenkonverters ist es möglich, eine Stimme, die an den Eingang gelangt und deswegen als Eingangsstimme bezeichnet wird, in eine Stimme am Ausgang, die als Ausgangsstimme bezeichnet wird, zu wandeln, ohne daß zwischen der Eingangsstimme und der Ausgangsstimme eine physikalische Beziehung im Sinne einer Frequenzumwandlung oder ähnlichem steht. Die Eingangsstimme wird vielmehr in eine Zwischeninformation gewandelt, d. h. die Eingangsstimme wird inhaltlich ausgewertet. Die Auswertung kann sich dabei allerdings darauf beschränken, eine Zwischeninformation zur Verfügung zu stellen, die später vorgelesen werden kann. Beispielsweise kann die Zwischeninformation in der Abfolge von einzelnen Wörtern bestehen, die auf beliebige Art und Weise dargestellt werden können, wobei die Darstellung immer darauf ausgerichtet sein muß, daß die Vorleseeinrichtung die Wörter später vorlesen kann. Vorleseeinrichtungen, die mit einer synthetisch erzeugten Stimme Informationen wiedergeben, sind an sich bekannt. Sie werden beispielsweise in Navigationssystemen eingesetzt, um dem Fahrer eines Fahrzeugs Anweisungen zu geben, in welche Richtung er sein Fahrzeug steuern muß.
Vorzugsweise weist die Vorleseeinrichtung mehrere auswählbare Stimmen auf. Man kann daher den Stimmenkonverter so betreiben, daß er entweder mit einer Stimme oder mit einer anderen Stimme "spricht". Die Bandbreite der Verwendung wird dadurch vergrößert.
Vorzugsweise weist die Vorleseeinrichtung eine Datenbank auf, in der mehrere Stimmen als Voice Fonts gespeichert sind. Ein Voice Font ist sozusagen das Vokabular einer Stimme, aus dem man die Sprachwiedergabe mit dieser Stimme zusammensetzen kann. Das Vokabular muß dabei nicht unbedingt nur ganze Wörter enthalten. Es enthält vielfach auch Wortbestandteile oder Lautabschnitte, die man dann zu Wörtern zusammensetzen kann. Voice Fonts werden beispielsweise auf der Basis einer echten Stimme erzeugt, indem das Klangspektrum der echten Stimme in bestimmter Hinsicht ausgewertet wird. Durch die Verwendung eines Voice Font lassen sich einzelne Stimmen sehr schnell und zuverlässig zusätzlich in die Datenbank einspeisen. Sie ermöglichen einen nahezu natürlichen Klang der Ausgangsstimme.
Vorzugsweise weist die Vorleseeinrichtung eine Auswahleinrichtung auf, die für jede Stimme ein wahrnehmbares Symbol aufweist, das einer Betätigungseinrichtung zugeordnet ist. Beispielsweise kann für jede Stimme ein Bild einer Person vorhanden sein, der diese Stimme zugeordnet ist. Dieses Bild kann auf einem Druckknopf oder auf einem berührungsempfindlichen Bildschirm (Touch Screen) erscheinen. Durch eine Berührung des Symbols wird dann die entsprechende Stimme ausgewählt. Die Verwendung eines entsprechenden Bildsymbols erleichtert dem Benutzer die Auswahl, d. h. er muß nicht lange nachdenken, welche Stimme nach der erfolgten Auswahl am Ausgang zu hören sein wird.
Hierbei ist bevorzugt, daß mindestens eine der Stimmen männlich charakterisiert und mindestens eine der Stimmen weiblich charakterisiert ist. Männliche Stimmen und weibliche Stimmen unterscheiden sich im allgemeinen. Durch verschiedene Klangmerkmale, wie Grundfrequenz und Obertongehalt, kann man eine Stimme ausgesprochen männlich oder ausgesprochen weiblich machen. Durch die Aufteilung der Stimmen in männliche Stimmen und weibliche Stimmen läßt sich eine größere Freiheit bei der Verwendung des Stimmenkonverters erreichen.
Bevorzugterweise ist die Zwischeninformation als Text ausgebildet. Man kann dann für die Spracherkennungseinrichtung einen handelsüblichen Sprachen-Textkonverter (Speech-to-Text Converter) verwenden, wie er beispielsweise von IBM angeboten wird. Nach erfolgter Wandlung steht die Sprache als Text zur Verfügung. Dies muß nicht notwendigerweise heißen, daß dieser Text auch in einem ASCII-Format niedergelegt wird. Die einzelnen Wörter sind aber in Textform so vorhanden, daß sie beispielsweise in einer Datenbank nachgeschlagen werden können. Mit Hilfe dieser als Text vorliegenden Information läßt sich dann die Vorleseeinrichtung betrieben, die als Text-Sprachen-Konverter ausgebildet ist (Text- to-Speech Converter) und beispielsweise von ATT Natural Voices unter der Bezeichnung "Text-to-Speech" (TTS) Engine angeboten wird. Diese TTS-Engine beinhaltet für die deutsche Sprache zwei Voice Fonts, die als "Reiner" und "Klara" bezeichnet werden und eine weitgehend natürliche Sprachwiedergabe erlauben.
Vorzugsweise arbeitet der Umsetzer mit einer konstanten Verzögerung. Mit anderen Worten ist eine Verzögerungseinrichtung im Umsetzer enthalten. Diese Verzögerungseinrichtung bewirkt beim Erkennen des Beginns einer gesprochenen Wortfolge eine bestimmte Verzögerungszeit im Bereich von maximal einiger 100 ms. Unter Konstanthaltung dieser Verzögerungszeit werden nachfolgend sämtliche Transformationen von Sprache zu Zwischeninformation (Text) und von Text zu Sprache stattfinden. Damit ergeben sich für die praktische Anwendung kaum erkennbare Totzeiten bei Wechsel des Sprechers. Da die Verzögerungszeit konstant ist, also in allen Umwandlugnsfällen auftritt, nimmt der Empfänger der Sprache, also der Zuhörer, nicht wahr, daß eine Umsetzung stattfindet.
Vorzugsweise weist der Umsetzer eine Geräusch-Erzeugungseinrichtung und einen Mischer auf, der zu der Stimme ein Hintergrundgeräusch hinzufügt. Damit läßt sich eine weitere Verschleierung des wahren Sprechers bewirken. Man kann beispielsweise das Hintergrundgeräusch einer Werkstatt oder einer Fabrik mit einblenden, so daß ein Anrufer getäuscht wird.
Die Erfindung betrifft auch eine Fernsprecheinrichtung mit einem derartigen Stimmenkonverter. Ein derartiger Stimmenkonverter ist vor allem dann sinnvoll, wenn die Person, deren Stimme umgesetzt werden soll, für den Gesprächspartner nicht sichtbar ist. Die Verwendung eines Stimmenkonverters in einer Fernsprecheinrichtung trägt diesen Anforderungen in besonderem Maße Rechnung. Die Fernsprecheinrichtung kann dabei sowohl ein normales Telefon sein als auch eine Sprechanlage in einem Haus, mit der beispielsweise die Eingangstür überwacht werden soll.
Die Erfindung betrifft auch ein virtuelles Büro mit einem derartigen Stimmenkonverter, bei dem der Stimmenkonverter an einer Telefonanlage angeschlossen ist. Mit dem Stimmenkonverter kann ein virtuelles Büro generiert werden, in dem eine vorbestimmte Menge von virtuellen Büromitarbeiterinnen oder Büromitarbeitern die Telefongesprächsführung machen. Man kann sich beispielsweise ein Ein-Mann-Büro vorstellen, bei dem sich der Chef als seine eigene Sekretärin meldet und dann an sich selbst vermittelt. Ein anderes Beispiel wäre ein Kleinbüro mit dem Erscheinungsbild eines mittelgroßen Unternehmens. Mit Hilfe des Stimmenkonverters kann sich ein kleiner Personalbestand, beispielsweise Chef, ein Mitarbeiter und eine Sekretärin, als Firma mit drei Abteilungen und 20 Mitarbeiterinnen oder Mitarbeitern darstellen. Durch die Möglichkeit der Geräusch-Erzeugungseinrichtung lassen sich dann branchenspezifische Geräuschhintergründe erzeugen, beispielsweise das Geräusch einer Werkstatt oder einer Fabrik.
Die Erfindung wird im folgenden anhand eines bevorzugten Ausführungsbeispiels in Verbindung mit der Zeichnung näher beschrieben. Hierin zeigt die einzige Figur einen Stimmenkonverter.
Ein Stimmenkonverter 1 weist einen Eingang 2 auf, beispielsweise ein Mikrofon, das Bestandteil eines Telefonapparates 3 sein kann. Ein Benutzer, dessen Stimme verändert werden soll, spricht in das Mikrofon des Telefonapparates 3. Das Ausgangssignal des Mikrofons 2 wird einem Sprache-Text-Wandler 4 zugeführt, der mit Hilfe einer Datenbank 5, die benutzerspezifisch ist, die eingehende Sprache in einen Text 6 wandelt und als Zwischeninformation ausgibt. Der Text muß hierbei nicht unbedingt geschrieben werden. Er muß aber in einer Form zur Verfügung stehen, die von einer Vorleseeinrichtung 7 "verstanden" wird, d. h. die Vorleseeinrichtung 7 muß den Text 6 in eine Stimme zurückverwandeln können, die über einen Lautsprecher 8 ausgegeben werden kann. Der Lautsprecher kann dabei auch der Lautsprecher eines weiteren Telefonapparats 9 sein, wie dies schematisch dargestellt ist. Zwischen der Vorleseeinrichtung 7 und dem Lautsprecher 8 ist eine Leitungsverbindung 10 dargestellt. In diese Leitungsverbindung 10 können natürlich noch nicht näher dargestellte Hilfselemente angeordnet sein, wie Verstärker, Vermittlungseinrichtungen oder ähnliches.
Die Vorleseeinrichtung arbeitet zusammen mit einer Datenbank 11, in der mehrere Voice Fonts 12a-12d gespeichert sind. Jeder Voice Font beinhaltet hierbei die Informationen, die notwendig sind, damit die Vorleseeinrichtung 7 aus dem Text 6 eine verständliche Sprachinformation erzeugen kann, mit anderen Worten eine Stimme. Der Datenbank 11 ist eine Auswahleinrichtung 13 zugeordnet, die beispielsweise einen berührungsempfindlichen Bildschirm aufweist, auf dem eine der Anzahl von Voice Fonts 12a-12d entsprechenden Symbolen 14a-14d, beispielsweise die Darstellung von Gesichtern oder Personen (Mann, Frau, Mädchen, Junge) erscheint. Durch Antippen eines derartigen Symbols 14a-14d kann der Benutzer die Stimme auswählen, mit der die Vorleseeinrichtung 7 den Text 6 wiedergibt.
Die Vorleseeinrichtung 7 weist eine Verzögerungseinrichtung 15 auf, die mit dem Eingang der Spracherkennungseinrichtung 4 gekoppelt ist und eine vorbestimmte Zeitverzögerung einstellt, d. h. beim Erkennen des Beginns einer gesprochenen Wörterfolge ergibt sich eine vorbestimmte Verzögerungszeit im Bereich von maximal einiger 100 Millisekunden, die verstreicht, bevor die Vorleseeinrichtung 7 den Text 6 mit der vorgewählten Stimme ausgibt. Die Verzögerungszeit wird im folgenden konstant gehalten, so daß sich bei der Ausgabeeinrichtung 8 praktisch keine erkennbaren Totzeiten ergeben.
Zusätzlich weist die Vorleseeinrichtung 7 einen Mischer 16 auf, an der weitere Klangquellen angeschlossen werden können, beispielsweise eine Geräuscherzeugungseinrichtung 17, die ein Hintergrundgeräusch erzeugt. Ein derartiges Hintergrundgeräusch kann beispielsweise das Geräusch einer Werkstatt oder einer Fabrik oder eines Büros sein.
Die Spracherkennungseinrichtung 4 kann gebildet sein durch einen handelsüblichen Sprachen-Text-Konverter (Speech-to-Text Converter), beispielsweise angeboten von IBM unter www-3.IBM.com/software/speech. Die Vorleseeinrichtung kann durch einen handelsüblichen Text- Sprachen-Konverter gebildet sein, beispielsweise die ATT Natural Voices Text-to-Speech (TTS) Engine, die unter www.ATT.com angeboten wird. Die TTS-Engine beinhaltet zwei Voice Fonts, die vom Hersteller als "Reiner" und "Klara" bezeichnet werden und sowohl für eine männliche Stimme als auch für eine weibliche Stimme eine weitgehend natürliche Sprachwiedergabe erlauben. Mit derartigen Software-Produkten läßt sich ein herkömmlicher Personal Computer verwenden, um den Stimmenkonverter zu realisieren.
Der Stimmenkonverter 1 arbeitet wie folgt:
ein Benutzer spricht in das Mikrofon 2 seines Telefons. Die Sprache wird analysiert und mit Hilfe der Datenbank 5 in einen Text 6 umgewandelt. Der Text wird in der Vorleseeinrichtung 7 mit einer durch die Voice Fonts 12a-12d definierten Stimme vorgelesen und über den Lautsprecher 8 eines Telefons 9 (oder auf andere Weise) ausgegeben.
Mit einem derartigen Stimmenkonverter sind eine Reihe von Effekten möglich. Man kann beispielsweise ein virtuelles Büro generieren, in dem jedenfalls über das Telefon einem Anrufer eine tatsächlich nicht existierende Situation vorgespielt werden kann. Beispielsweise kann sich der Chef als eigene Sekretärin melden und dann an sich selbst vermitteln. Durch das Einblenden entsprechender Hintergrundgeräusche kann man eine in Wahrheit nicht vorhandene Geschäftstätigkeit vortäuschen.
Ein Kleinbüro kann mit dem Erscheinungsbild eines mittelgroßen Unternehmens dargestellt werden. Ein Chef mit einem Mitarbeiter und einer Sekretärin kann sich als mittelgroße Firma, beispielsweise drei Abteilungen und 20 Mitarbeiterinnen und Mitarbeitern ausgeben. Die Auswahl der einzelnen Stimmen erfolgt über die Auswahleinrichtung 13. Auch hier ist es möglich, das Büro mit einem branchenspezifischen Geräuschhintergrund einer Werkstatt oder einer Fabrik zu versehen.
Man kann als Voice Font die Stimme eines prominenten Schauspielers, Sängers, Sportlers oder ähnlichen verwenden und Anrufer damit verblüffen. Die Stimme des Prominenten gibt dann den vom Benutzer selbst gesprochenen Text wieder, wobei aufgrund der beiden Umwandlungen von Sprache in Text und Text in Sprache kleine, kaum merkbare Zeitverzögerungen entstehen können.
Aus Sicherheitsgründen können sich eine Frau oder Kinder, die Belästigungen durch Telefon fürchten, sich mit einer männlichen und energischen Stimme melden.
Die Verwendung von Text als Zwischeninformation hat den Vorteil, daß man handelsübliche Komponenten verwenden kann, um Sprache in Text und Text in Sprache zu wandeln. Die Sprache ist jedoch nicht die einzig mögliche Zwischeninformation. Wenn die beiden Datenbanken 5 für die Sprachen-Text-Wandlung und 11 für die Text-Sprachen-Wandlung gewisse Übereinstimmungen aufweisen, recht es in manchen Fällen auch aus, wenn die Spracherkennungseinrichtung 4 die entsprechenden Indizes für die Datenbank 11 ermittelt, so daß die Vorleseeinrichtung 7 aufgrund der Indizes in der Datenbank 11 nachschlagen kann.

Claims

1. Stimmenkonverter mit einem Eingang, einem Ausgang und dazwischen einem Umsetzer, dadurch gekennzeichnet, daß der Umsetzer (4, 6, 7) eine Spracherkennungseinrichtung (4), die Sprache in eine Zwischeninformation (6) wandelt, und eine Vorleseeinrichtung (7) aufweist, die die Zwischeninformation (6) mit einer synthetisch erzeugten Stimme vorliest.

2. Stimmenkonverter nach Anspruch 1, dadurch gekennzeichnet, daß die Vorleseeinrichtung (7) mehrere auswählbare Stimmen aufweist.

3. Stimmenkonverter nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Vorleseeinrichtung (7) eine Datenbank (11) aufweist, in der mehrere Stimmen als Voice Fonts (12a-12d) gespeichert sind.

4. Stimmenkonverter nach einem Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Vorleseeinrichtung (7) eine Auswahleinrichtung (13) aufweist, die für jede Stimme ein wahrnehmbares Symbol (14a-14b) aufweist, das einer Betätigungseinrichtung zugeordnet ist.

5. Stimmenkonverter nach einem Ansprüche 2 bis 4, dadurch gekennzeichnet, daß mindestens eine der Stimmen männlich charakterisiert und mindestens eine der Stimmen weiblich charakterisiert ist.

6. Stimmenkonverter nach einem Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Zwischeninformation (6) als Text ausgebildet ist.

7. Stimmenkonverter nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß der Umsetzer (4, 6, 7) mit einer konstanten Verzögerung (15) arbeitet.

8. Stimmenkonverter nach einem Ansprüche 1 bis 7, dadurch gekennzeichnet, daß der Umsetzer (4, 6, 7) eine Geräusch-Erzeugungseinrichtung (17) und einen Mischer (16) aufweist, der zu der Stimme ein Hintergrundgeräusch hinzufügt.

9. Fernsprecheinrichtung mit einem Stimmenkonverter nach einem Ansprüche 1 bis 8.

10. Virtuelles Büro mit einem Stimmenkonverter nach einem der Ansprüche 1 bis 8, bei dem der Stimmenkonverter an einer Telefonanlage (4, 9) angeschlossen ist.