-
Die vorliegende Erfindung bezieht
sich auf die Tonerzeugung, welche die Sprache eines gewählten Individuums
darstellt.
-
Genauer gesagt stellt die Erfindung
ein System und eine Vorrichtung zur Verfügung, welche es einer ersten
Person ermöglicht
in der normalen für ihn/sie
charakteristischen Weise zu sprechen, wobei der Ton elektronisch
transformiert und einem Hörer hörbar gemacht
wird, als ob der Text durch eine zweite Person gesprochen worden
wäre.
-
Bei der Produktion von Filmen, Fernsehspots,
Werbematerial, oder im Theater tritt gelegentlich der Bedarf auf
Material zu produzieren, welches die Stimme eines Schauspielers
oder einer andere Person erfordert, welche zur Zeit nicht verfügbar ist
um das erforderliche Material zu produzieren. Manchmal hat ein Schauspieler
Schwierigkeiten eine erforderliche Sprache zu sprechen und eine
andere Person ist für
diese Aufgabe erforderlich. Es kann erforderlich sein, dass Darsteller
und Tiere in Karikaturen in einer definierten Stimmlage sprechen,
welche dem Filmerzeuger nicht verfügbar ist. Beamte des Gesetzesvollzuges
könnten
eine Gelegenheit haben einen Kriminellen telefonisch abzufangen
indem diese eingeladen wird eine ihm/ihr bekannten Person zu treffen
zu einer vereinbarten Zeit. Um diese Erfordernisse zu erfüllen sind
Stimm- oder Sprachumwandlungssysteme entwickelt worden.
-
Im US Patent Nr. 5,029,211 offenbart
Ozawa ein Sprachanalyse- und -synthesesystem, welches derart abläuft, dass
eine Quellentonsignal für
das Intervall jeder Spracheinheit bestimmt wird, welches zur Sprachsynthese
verwendet wird, entsprechend einem Spektrumparameter, welcher für jede Spracheinheit
basierend auf dem Spektrum erhalten wird. Dieses System umfasst
Mittel zur Speicherung, Synthese und Filterung um spektrale Störungen zu
entfernen.
-
Eine Methode sowie eine Vorrichtung
zur Änderung
der Stimmcharakteristik synthetisierter Sprache ist durch Blanton
et al. im US Patent Nr. 5,113,449 offenbart. Ein Stimmtaktmodell
digitaler Sprechdaten wird verändert,
wobei die ursprüngliche Taktperiode
aufrechterhalten wird. Die Absicht dieser Erfindung ist primär die Tonerzeugung
phantasievoller Quellen wie sprechende Tiere oder Vögel.
-
Das Verschieben des Takts eines Tonsignals ist
das Thema des US Patentes Nr. 5,862,232 von Shinbara et al. Tonsignale
werden unterteilt in eine Serie mehrfacher Rahmen in einer Umhüllenden. Diese
werdend durch eine Fourier-Transformation in einen Frequenzbereich
gewandelt. Nachdem die Änderungen
durchgeführt
sind wird das Verfahren umgekehrt.
-
Der Stand der Technik offenbart kein
Verfahren zum derartigen Verändern
eines Stimmsignals, dass die erste Stimme mit hoher Qualität (high
fidelity) in eine zweite Stimme gewandelt wird. Eine derartige Transformation
kann nur dann genau durchgeführt
werden, wenn mehrere Stimmparameter verarbeitet werden, umfassend
Geschwindigkeit und Sprache.
-
Es ist daher eines der Ziele der
vorliegenden Erfindung die Nachteile der aus dem Stand der Technik
bekannten Stimmumwandlungssysteme zu verhindern, und ein System
und eine Vorrichtung bereitzustellen, welches diese Aufgabe mit
verbesserter Treue durchführt.
-
Es ist ein weiteres Ziel der vorliegenden
Erfindung ein derartiges System derart anzupassen, dass es zur Verwendung
auf einem Personalcomputer, einem lokalen Netzwerk (local area network)
sowie einem offenen Netzwerk (open network) geeignet ist.
-
Die vorliegende Erfindung erfüllt die
oben genannten Aufgaben durch das zur Verfügungsteilen eines verbesserten
Sprachumwandlungssystems zum Umwandeln der stimmlichen Ausgabe einer
ersten Person in Sprache, wie diese gehört würde, wenn eine zweite Person
sie sprechen würde,
das System umfasst:
- a) Mittel zum Laden von
Sprachproben in einen Speicher, wobei der Speicher mit einer digitalen Verarbeitungsvorrichtung
verbunden ist;
- b) Mittel zum Aufnahme von Sprachproben durch die genannte erste
und durch eine zweite Person, und Mittel zur Analyse der genannten
Sprache, wobei die genannte Analyse zumindest zwei Stimmcharakteristiken
aus der Gruppe von fünf umfasst,
wobei die genannte Gruppe Taktabstand, Stimme, Nichtstimme, Ruhe
und Energie umfasst, und wobei die genannte Analyse in digitale
Form umgewandelt ist und durch die genannte digitale Verarbeitungsvorrichtung
zugänglich ist;
- c) ein Programm zur Steuerung der Verarbeitung der genannten
digitalen Verarbeitungsvorrichtung, um Konversionsfaktoren zu erzeugen,
um die stimmliche Ausgabe der genannten ersten Person in ein Sprachsignal
zu wandeln, wie diese erzeugt würde
wenn es durch die genannte zweite Person gesprochen würde; und
- d) Stimmausgabemittel welche verarbeitete Signale der digitalen
Verarbeitungsvorrichtung erhalten, zum senden von Sprach durch die
genannte erste Person in der Weise einer dritten Person, wobei die
Sprachweise als wie von der genannten zweiten Person gesprochen
tönt.
-
In einer bevorzugten Ausgestaltung
der vorliegenden Erfindung wird ein Sprachumwandlungssystem zur
Verfügung
gestellt, wobei die aufgenommenen Sprachsignale beider, der genannten
ersten und zweiten Person, durch Soft- und Hardware in Segmente
von nicht grösser
als 10 Millisekunden unterteilt wird, um diese zu analysieren.
-
In einer am meisten bevorzugten Ausgestaltung
der vorliegenden Erfindung wird ein Sprachumwandlungssystem zur
Verfügung
gestellt, bei welchem die digitale Verarbeitungseinheit die Zentralrecheneinheit
(CPU) eines Personalcomputers ist, das genannte Stimmausgabemittel
der Tongenerator des genannten Personalcomputers ist, und das genannte Programm
auf einer Platte (disk) aufgezeichnet ist, welche vom genannten
Computer akzeptierbar ist.
-
Weitere Ausführungsformen der Erfindung werden
nachfolgend beschrieben.
-
Im US Patent Nr. 5,327,521 von Savic
et al. ist ein Hochqualitätsstimmentransformationssystem beschrieben
und beansprucht, welches während
einem Trainingsmode derart abläuft,
dass Stimmsignalcharakteristiken repräsentierend Ziel- und Quellenstimmen
gespeichert werden. Danach, während einem
Echtzeittransformationsmodus, wird ein Signal repräsentierend
die Quellenstimme in überlappende Segmente
unterteilt, und analysiert, um das Anregungsspektrum vom Tonqualitätsspektrum
zu trennen. Ein gespeichertes Zieltonqualitätsspektrum wird ersetzt für das Quel lenspektrum
und wird dann gefaltet mit dem aktuellen Quellenstimmeanregungsspektrum.
Die erzeugte Sprache hat den Wort- und Anregungsinhalt der Quelle,
aber die akustischen Charakteristiken eines Zielsprechers.
-
Der Erfinder der vorliegenden Erfindung
vertritt die Ansicht, dass das von Savic et al. beschriebene System
keine hochtreuen (high-fidelty) Resultate erzeugt, weil zu wenig
Sprachcharakteristiken gemessen und verarbeitet werden. Zudem wird
die Verwendung von 30 Millisekunden Segmenten ein schlechtes Resultat
erzeugen, insbesondere bei schnell gesprochener Sprache. Im Gegensatz
dazu misst und verarbeitet die vorliegende Erfindung bis zu 5 Sprachcharakteristiken
und verarbeitet Sprachstücke
von 10 Millisekunden Länge.
Zudem ist das System gemäss
der vorliegenden Erfindung in Hardware und Software ausgeführt.
-
Es ist anerkannt, dass Empfangen,
Verarbeiten und Ausgeben grosser Mengen von Sprachdaten in Echtzeit,
ohne hörbare
Verzögerung,
eine sehr schnelle Datenverarbeitung erfordern. In der vorliegenden
Erfindung ist dieses Erfordernis erfüllt durch die Verwendung eines
Digitalen Signal Prozessors (weiterhin als DSP bezeichnet). Die
wesentlichen Eigenschaften des DSP ist seine Fähigkeit komplexe mathematische
Berechnungen mit hoher Geschwindigkeit durchzuführen, insbesondere auf Grund
der Verwendung von separaten Adress- und Datenbussen. Ein Beispiel
eines kommerziell verfügbaren
DSP ist der TMS320C5510 produziert durch Texas Instruments.
-
Die Erfindung wird nun weiter beschrieben unter
Bezugnahme auf die nachfolgenden Zeichnungen, welche beispielhaft
bevorzugte Ausführungsformen
der Erfindung darstellen. Strukturelle Details sind nur so weit
wie zum grundlegenden Verständnis der
Erfindung notwendig gezeigt. Die beschriebenen Beispiele, zusammen
mit den Zeichnungen, machen Fachpersonen klar, wie weitere Ausführungsformen der
Erfindung realisiert werden können.
-
Die Zeichnungen zeigen:
-
1 ist
ein Blockdiagramm einer bevorzugten Ausführungsform des Systems gemäss der Erfindung,
wobei Stimmsignale zur Speicherung in eine Datenbank gespeist werden;
-
2 ist
ein Blockdiagramm, welches das Umwandlungsverfahren darstellt;
-
3 ist
ein nicht detailliertes Blockdiagramm, welches ein System ausgerüstet mit
einem Mikrofon und einem Lautsprecher darstellt;
-
4 ist
eine grafische Darstellung des Systems angepasst an einen Personalcomputer;
-
5 ist
ein Blockdiagramm des Systems angepasst an ein lokales Netzwerk
(local area network);
-
6 ist
ein Blockdiagramm des Systems angepasst an ein offenes Netzwerk
(open network);
-
7 ist
eine schematische Ansicht einer Vorrichtung ausgestaltet zur Verwendung
des Stimmumwandlungssystems;
-
8 ist
ein Blockdiagramm eines Verfahrens zur Verwendung der Vorrichtung
gemäss 7; und 9 ist ein Blockdiagramm des Verfahrens
zur Verwendung einer der 7 ähnlichen
Vorrichtung, welche zudem mit einer Datenbank versehen ist.
-
Die 1 und 2 zeigen eine Darstellung
eines verbesserten Sprachumwandlungssystems, um die Stimmausgabe
einer ersten Person derart in Sprache zu wandeln, wie sie gehört würde, wenn
sie durch eine zweite Person gesprochen würde.
-
1 zeigt
in nicht detaillierter Form den Trainingsmodus des Systems. Mittel
zum Laden von Sprache, wie die externe Stimmprobe A 10,
wird als Eingangsquelle verwendet. Die Sprachprobe 10 kann
auf einem Band (tape) oder einer Platte (disk) vorhanden sein, und
ist mit einem analog/digital Wandler 12 verbunden. Das
Ergebnis ist als ein File 14 in einem digitalen Speicher
gespeichert. Die Stimmsignale werden analysiert 16, und
als WAV-File 18 gesendet. Die Signale werden dann in einer
digitalen Verarbeitungsvorrichtung verarbeitet und zu einem TXT-File 20 in
eine Datenbank gesendet.
-
Während
dem Training sind Mittel verfügbar, um
Sprachproben einer ersten und einer zweiten Person aufzunehmen. 2, als selbsterklärend bezeichnet,
zeigt Mittel zur Analyse der beiden Sprachproben. Bevorzugt werden
die aufgenommenen Sprachsignale beider Personen, der ersten und
der zweiten, mit Hilfe der Soft- und Hardware in angrenzende Abschnitte 22 von
jeweils nicht länger
als 10 Millisekunden zerlegt, um die Signale zu analysieren.
-
Die Analyse umfasst zumindest zwei
bis fünf Stimmcharakteristiken,
Taktabstand, Stimme, Hintergrund, Ruhe und Energie. 2 zeigt zudem den Betrieb der digitalen
Prozessoreinheit.
-
Ein Programm 24 ist zur
Verfügung
gestellt, um den Betrieb des digitalen Prozessoreinheit zu bestimmten.
Das Programm erzeugt Umwandlungsfaktoren um den vokalen Ausgang
der ersten Person in Sprachsignale umzuwandeln, wie diese erzeugt
würden,
wenn diese durch die zweite Person gesprochen würden.
-
Sprachausgabemittel 26,
zum Beispiel Ohrhörer,
ein Band- oder Plattenaufnahmegerät sind vorgesehen um die von
der digitalen Prozessoreinheit verarbeiteten Signale aufzunehmen,
um Sprache einer ersten Person als Sprache einer dritten Person zu
senden. Die Weise der Sprache der dritten Person tönt nun als
ob durch die zweite Person gesprochen.
-
3 stellt
in abgekürzter
Form das Training und den Betrieb eines typischen Sprachumwandlungssystems
dar.
-
Die Mittel zum Laden von Sprachproben
in einen Speicher umfassen ein Mikrofon 28, und die Stimmausgabemittel
umfassen einen Lautsprecher 30. Die Verarbeitung ist dasselbe
wie in 1 dargestellt.
-
Aus 4 ist
eine Darstellung eines Sprachumwandlungssystems ersichtlich, in
welchem die digitale Prozessoreinheit die zentrale Verarbeitungseinheit
(CPU) eines Personalcomputers 34 ist. Das Stimmausgabemittel
ist der Tongenerator 36 des Personalcomputers. Das Imitationsprogramm 38 ist als
Software auf eine Platte (disk) ausgenommen, z.B. eine 3,5" Floppy-Disk, oder
eine CD ROM oder DVD, welche vom Computer akzeptiert wird.
-
Falls diese nicht bereits installiert
sind, erhält der
Computer analog/digital und D/A-Wandler-Karten 40.
-
Bezugnehmend auf 5 ist ein bildliches Blockdiagramm des
Sprachumwandlungssystems dargestellt, welches für die Verwendung in einem lokalen
Netzwerk (lokal area network) angepasst ausgestaltet ist, zum Beispiel
einem Ring oder einem Intranet. Die digitale Verarbeitungsvorrichtung
und die Zentralprozessoreinheit sind Teil des Serverprogramms 44.
Der Server ist über
einen Kontroller 46 mit einem geschlossenen Netzwerk verbunden
an mehrere Netzwerkcomputer 48. Jeder Computer ist mit
einem Sprachlademittel 50 für Spracheingabe verbunden,
beispielsweise einem Mikrofon, und mit Sprachausgabemitteln 52 zur
Erzeugung einer Ausgabe, beispielsweise einer Aufnahmedisk (recording disk).
-
6 zeigt
ein Sprachtransformationssystem angepasst für Internetverwendung.
-
Eine digitale Verarbeitungseinheit
und eine Zentralprozessoreinheit (CPU) sind Teil eines Serverprogramms 54,
verbunden durch eine Mehrzahl von Kontrollern 56 in einem
offenen Netzwerk an Computer 58, welche mit dem Internet
verbunden sind. Jeder Computer 58 hat ein verbundenes Mikrofon 59 zur
Spracheingabe und Tonaufnahmemittel 60 für den resultierenden
Output.
-
7 stellt
eine portable Sprachumwandlungsvorrichtung dar.
-
Ein Gehäuse 62 beinhaltet
eine elektronische Platte 64 mit einem DSP-Chip 66 und
alle erforderlichen Module um eine Sprachumwandlung durchzuführen. Der
grösste
Teil des Umwandlungsprogramms wird durch die Verwendung dieser elektronischen
Komponenten durchgeführt.
Die Vorrichtung beinhaltet ebenfalls ein Mikrofon 68, eine
interne Energiequelle wie eine Batterie 70, einen Lautsprecher, 72 und
Schaltertastet 74 zur Benutzerkontrolle.
-
Die Vorrichtung umfasst vorteilhafterweise ein
Statusanzeigelicht 76, typischerweise eine sich ändernde
Dreifarben LED (Leuchtdiode), mit Rot, Grün und Gelb, einen Tongenerator 78,
und einen Ein-Ausschalter 80 für die Energie.
-
8 zeigt
ein Diagramm, welche das Training und die Verwendung der in 7 beschriebenen Vorrichtung
darstellt.
-
Sobald die Energie eingeschaltet
ist zeigt die LDE ein grünes
Licht. Der Operator drückt
auf die "MEINE STIMME" Taste 74a,
welche den analogen Pfad Nr. 1 des DSP öffnet. Sobald das System bereit ist
gibt es einen kurzen Ton ab. Die LED wechselt auf Rot, was den Beginn
des Aufnahmemodus anzeigt. Während
die Taste "MEINE
STIMME" gedrückt bleibt,
spricht der Operator einen kurzen Satz 76 – welcher
derart vorherbestimmt werden kann, dass dieser alle normalen Typen
von Sprechtönen
enthält. Die
Vorrichtung wandelt die Stimme in digitale Form. Der Prozess endet
sobald der Operator die Taste 78 loslässt, oder nachdem die Verarbeitung
abgeschlossen ist und die Vorrichtung einen Ton abgibt, welcher die
Beendung andeutet. Die LED wechselt auf Gelb.
-
Die Vorrichtung im Trainingsmodus "lernt" 80 nun die Stimme
des Operators.
-
Im DSP wird eine digitale Filterung
des Stimmsignals durchgeführt,
um ein neues Stimmenfile der Sprache zu bildet, welches auf eine
Weite von 3 kHz beschränkt
ist. Hohe Töne
werden entfernt. Die Sprache wird zerhackt in 10 Millisekunden Segmente,
und wie in 2 dargelegt
verarbeitet. Die Resultate werden im Speicher gespeichert als eine
Serie von Berechungsfaktoren, welche die Stimmcharakteristik, einschliesslich
Ruhe, Sprachtaktabstand und Nichtstimme, definieren.
-
Der Operator drückt nun die "IHRE STIMME" Taste 74b,
welche den analogen Pfad Nr. 2 des DSP öffnet. Sobald das System bereit
ist erzeugt dieses einen kurzen Ton. Die LED wechselt auf Rot, und zeigt
damit den Beginn des Aufnahmemodus an.
-
Während
die Taste "IHRE
STIMME" gedrückt bleibt,
fügt der
Operator einen kurzen Satz der zu kopierenden Stimme ein. Die Vorrichtung
wandelt die Stimme in digitale Form um. Die Aufnahme wird beendet
und der Operator lässt
die Taste 76 los. Nachdem die Analyse und Verarbeitung 78 abgeschlossen sind,
gibt die Vorrichtung einen Ton ab um den Abschluss anzuzeigen. Die
LED wechselt auf Gelb.
-
Die Vorrichtung geht automatisch
in den "Imitation"-Modus 80,
welcher den analogen Pfad Nr. 3 des DSP öffnet, um entweder aktuelle
Daten von Hintergrundgeräuschen
oder Ruhe für
die Verarbeitung zu empfangen. Der Operator spricht mit normaler Stimme 82.
Der DSP akkumuliert die digitalen Daten in Bytes 84, wobei
jedes nicht länger
als 10 Millisekunden ist. Die Prozessschlaufe wird ständig repetiert.
-
Die digitale Verarbeitungseinheit
definiert numerische Beziehungsfaktoren betreffend "MEINE STIMME" und "DEINE STIMME". Sobald der Speicher
mit Bytes von 10 Millisekunden gefüllt ist startet der Prozess
der digitalen Datenkonversion 86, und die Stimmparameter
von "MEINE STIMME" werden durch den
numerischen Beziehungsfaktor multipliziert um "DEINE STIMME" 88 zu erzeugen. Die verarbeiteten
Stimmpakete sind kurz genug, und die Verarbeitung und das Senden
sind schnell genug, um sicherzustellen, dass die Verzögerung zwischen
dem Sprechen des Operators und der Ausgabe der "GEWÄHLTEN
STIMME" kurz genug
und praktisch unhörbar
sind.
-
Bezug nehmend auf 9 wird nun graphisch ein Ausführungsbeispiel
eines Sprachumwandlungssystems dargestellt, welches eine Stimmbank
verwendet, welche Stimmcharakteristiken von interessierenden Personen
speichert. Auf die Stimmbank wurde bereits in 1 kurz Bezug genommen.
-
Der Betriebsverfahren ist identisch
zu dem bereits mit 8 beschriebenen
Verfahren, mit Ausnahme, dass die zweite Stimme ersetzt wird durch eine
wählbare,
existierende Stimme, welch ein der Datenbank gespeichert ist.
-
Die gespeicherten Stimmcharakteristiken sind
wählbar 90-92 als
Eingang für
die digitale Verarbeitungsvorrichtung, um den Eingang herkommend von
der zweiten Person beliebig zu ersetzen. Die Vorrichtung empfängt die
Stimmcharakterisierungdaten von der Datenbank, und der Prozess verläuft exakt wie
mit 8 beschrieben.
-
Es ist beabsichtigt, dass der Bereich
der beschriebenen Erfindung alle Ausführungsformen umfasst, welche
innerhalb der Bedeutung der nachfolgenden Ansprüche liegt. Die vorangegangenen
Beispiele zeigen nützliche
Ausführungsformen
der Erfindung, sind jedoch nicht als limitierend für den Schutzbereich
zu erachten, weil Fachleuten bewusst ist, dass zusätzliche
Varianten und Modifikation der Erfindung formuliert werden könnte, ohne über den Sinn
der folgenden Patentansprüche
hinauszugehen.
-
Zusammenfassung
-
Die Erfindung bezieht sich auf die
Tonerzeugung, welche die Sprache eines gewählten Individuums darstellt.
Die Erfindung stellt ein System und eine Vorrichtung zur Verfügung, welche
es einer ersten Person ermöglicht
in der normalen für
ihn/sie charakteristischen Weise zu sprechen, wobei der Ton elektronisch
umgewandelt und einem Hörer
hörbar gemacht
wird, als ob der Text durch eine zweite Person gesprochen worden
wäre. Das
System umfasst Mittel zum Laden von Sprachproben in einen Speicher,
wobei der Speicher mit einer digitalen Verarbeitungsvorrichtung
verbunden ist, und mit Mitteln zur Aufzeichnung von Sprachproben
der ersten und zweiten Person, und Mittel zur Analyse der Sprache, wobei
die Analyse zumindest zwei Stimmcharakteristiken aus der Gruppe
von fünf
Sprachcharakteristiken umfasst wobei die Gruppe Taktabstand, Stimme, Nichtstimme,
Ruhe und Energie umfasst, wobei die Analyse in digitale Form gewandelt
wird und der digitalen Verarbeitungsvorrichtung zugänglich ist,
und ein Programm zum Ausführen
der Operation der digitalen Verarbeitungsvorrichtung, um Umwandlungsfaktoren
zu erzeugen, um die stimmliche Ausgabe der ersten Person in Sprachsignale
zu wandeln, wie diese erzeugt würden,
wenn diese durch die zweite Person gesprochen würden, und ein Stimmausgabemittel
welches verarbeitete Signale der digitalen Verarbeitungsvorrichtung
erhält,
um Sprache durch die erste Person in der Weise einer dritten Person
zu senden, wobei die Sprachweise der dritten Person derart tönt, als
ob sie von der zweiten Person gesprochen worden wäre.
(1)