DE10196989T5

DE10196989T5 - Verbessertes Sprachumwandlungssystem und -vorrichtung

Info

Publication number: DE10196989T5
Application number: DE10196989T
Authority: DE
Inventors: Shlomo Baruch
Original assignee: SISBIT Ltd
Current assignee: SISBIT Ltd
Priority date: 2000-12-04
Filing date: 2001-12-04
Publication date: 2004-07-01
Also published as: CA2436606A1; AU2002222448A1; WO2002047067A2; IL140082A0; WO2002047067A3; US20040054524A1

Abstract

Ein verbessertes Sprachumwandlungssystem zum Umwandeln der stimmliche Ausgabe einer ersten Person in die Sprache, wie diese gehört würde, wenn eine zweite Person sie sprechen würde, das System umfasst:
a) Mittel zum Laden von Sprachproben in einen Speicher, wobei der Speicher mit einer digitalen Verarbeitungsvorrichtung verbunden ist;
b) Mittel zum Aufnahme von Sprachproben durch die genannte erste und durch eine zweite Person, und Mittel zur Analyse der genannten Sprache, wobei die genannte Analyse zumindest zwei Stimmcharakteristiken aus der Gruppe von fünf umfasst, wobei die genannte Gruppe Taktabstand, Stimme, Nichtstimme, Ruhe und Energie umfasst, und wobei die genannte Analyse in digitale Form umgewandelt ist und durch die genannte digitale Verarbeitungsvorrichtung zugänglich ist; c) ein Programm zur Steuerung der Verarbeitung der genannten di
gitalen Verarbeitungsvorrichtung, um Konversionsfaktoren zu erzeugen, um die stimmliche Ausgabe der genannten ersten Person in ein Sprachsignal zu wandeln, wie diese erzeugt würde wenn es durch die genannte...

Description

Die vorliegende Erfindung bezieht sich auf die Tonerzeugung, welche die Sprache eines gewählten Individuums darstellt.
Genauer gesagt stellt die Erfindung ein System und eine Vorrichtung zur Verfügung, welche es einer ersten Person ermöglicht in der normalen für ihn/sie charakteristischen Weise zu sprechen, wobei der Ton elektronisch transformiert und einem Hörer hörbar gemacht wird, als ob der Text durch eine zweite Person gesprochen worden wäre.
Bei der Produktion von Filmen, Fernsehspots, Werbematerial, oder im Theater tritt gelegentlich der Bedarf auf Material zu produzieren, welches die Stimme eines Schauspielers oder einer andere Person erfordert, welche zur Zeit nicht verfügbar ist um das erforderliche Material zu produzieren. Manchmal hat ein Schauspieler Schwierigkeiten eine erforderliche Sprache zu sprechen und eine andere Person ist für diese Aufgabe erforderlich. Es kann erforderlich sein, dass Darsteller und Tiere in Karikaturen in einer definierten Stimmlage sprechen, welche dem Filmerzeuger nicht verfügbar ist. Beamte des Gesetzesvollzuges könnten eine Gelegenheit haben einen Kriminellen telefonisch abzufangen indem diese eingeladen wird eine ihm/ihr bekannten Person zu treffen zu einer vereinbarten Zeit. Um diese Erfordernisse zu erfüllen sind Stimm- oder Sprachumwandlungssysteme entwickelt worden.
Im US Patent Nr. 5,029,211 offenbart Ozawa ein Sprachanalyse- und -synthesesystem, welches derart abläuft, dass eine Quellentonsignal für das Intervall jeder Spracheinheit bestimmt wird, welches zur Sprachsynthese verwendet wird, entsprechend einem Spektrumparameter, welcher für jede Spracheinheit basierend auf dem Spektrum erhalten wird. Dieses System umfasst Mittel zur Speicherung, Synthese und Filterung um spektrale Störungen zu entfernen.
Eine Methode sowie eine Vorrichtung zur Änderung der Stimmcharakteristik synthetisierter Sprache ist durch Blanton et al. im US Patent Nr. 5,113,449 offenbart. Ein Stimmtaktmodell digitaler Sprechdaten wird verändert, wobei die ursprüngliche Taktperiode aufrechterhalten wird. Die Absicht dieser Erfindung ist primär die Tonerzeugung phantasievoller Quellen wie sprechende Tiere oder Vögel.
Das Verschieben des Takts eines Tonsignals ist das Thema des US Patentes Nr. 5,862,232 von Shinbara et al. Tonsignale werden unterteilt in eine Serie mehrfacher Rahmen in einer Umhüllenden. Diese werdend durch eine Fourier-Transformation in einen Frequenzbereich gewandelt. Nachdem die Änderungen durchgeführt sind wird das Verfahren umgekehrt.
Der Stand der Technik offenbart kein Verfahren zum derartigen Verändern eines Stimmsignals, dass die erste Stimme mit hoher Qualität (high fidelity) in eine zweite Stimme gewandelt wird. Eine derartige Transformation kann nur dann genau durchgeführt werden, wenn mehrere Stimmparameter verarbeitet werden, umfassend Geschwindigkeit und Sprache.
Es ist daher eines der Ziele der vorliegenden Erfindung die Nachteile der aus dem Stand der Technik bekannten Stimmumwandlungssysteme zu verhindern, und ein System und eine Vorrichtung bereitzustellen, welches diese Aufgabe mit verbesserter Treue durchführt.
Es ist ein weiteres Ziel der vorliegenden Erfindung ein derartiges System derart anzupassen, dass es zur Verwendung auf einem Personalcomputer, einem lokalen Netzwerk (local area network) sowie einem offenen Netzwerk (open network) geeignet ist.
Die vorliegende Erfindung erfüllt die oben genannten Aufgaben durch das zur Verfügungsteilen eines verbesserten Sprachumwandlungssystems zum Umwandeln der stimmlichen Ausgabe einer ersten Person in Sprache, wie diese gehört würde, wenn eine zweite Person sie sprechen würde, das System umfasst:

a) Mittel zum Laden von Sprachproben in einen Speicher, wobei der Speicher mit einer digitalen Verarbeitungsvorrichtung verbunden ist;
b) Mittel zum Aufnahme von Sprachproben durch die genannte erste und durch eine zweite Person, und Mittel zur Analyse der genannten Sprache, wobei die genannte Analyse zumindest zwei Stimmcharakteristiken aus der Gruppe von fünf umfasst, wobei die genannte Gruppe Taktabstand, Stimme, Nichtstimme, Ruhe und Energie umfasst, und wobei die genannte Analyse in digitale Form umgewandelt ist und durch die genannte digitale Verarbeitungsvorrichtung zugänglich ist;
c) ein Programm zur Steuerung der Verarbeitung der genannten digitalen Verarbeitungsvorrichtung, um Konversionsfaktoren zu erzeugen, um die stimmliche Ausgabe der genannten ersten Person in ein Sprachsignal zu wandeln, wie diese erzeugt würde wenn es durch die genannte zweite Person gesprochen würde; und
d) Stimmausgabemittel welche verarbeitete Signale der digitalen Verarbeitungsvorrichtung erhalten, zum senden von Sprach durch die genannte erste Person in der Weise einer dritten Person, wobei die Sprachweise als wie von der genannten zweiten Person gesprochen tönt.

In einer bevorzugten Ausgestaltung der vorliegenden Erfindung wird ein Sprachumwandlungssystem zur Verfügung gestellt, wobei die aufgenommenen Sprachsignale beider, der genannten ersten und zweiten Person, durch Soft- und Hardware in Segmente von nicht grösser als 10 Millisekunden unterteilt wird, um diese zu analysieren.
In einer am meisten bevorzugten Ausgestaltung der vorliegenden Erfindung wird ein Sprachumwandlungssystem zur Verfügung gestellt, bei welchem die digitale Verarbeitungseinheit die Zentralrecheneinheit (CPU) eines Personalcomputers ist, das genannte Stimmausgabemittel der Tongenerator des genannten Personalcomputers ist, und das genannte Programm auf einer Platte (disk) aufgezeichnet ist, welche vom genannten Computer akzeptierbar ist.
Weitere Ausführungsformen der Erfindung werden nachfolgend beschrieben.
Im US Patent Nr. 5,327,521 von Savic et al. ist ein Hochqualitätsstimmentransformationssystem beschrieben und beansprucht, welches während einem Trainingsmode derart abläuft, dass Stimmsignalcharakteristiken repräsentierend Ziel- und Quellenstimmen gespeichert werden. Danach, während einem Echtzeittransformationsmodus, wird ein Signal repräsentierend die Quellenstimme in überlappende Segmente unterteilt, und analysiert, um das Anregungsspektrum vom Tonqualitätsspektrum zu trennen. Ein gespeichertes Zieltonqualitätsspektrum wird ersetzt für das Quel lenspektrum und wird dann gefaltet mit dem aktuellen Quellenstimmeanregungsspektrum. Die erzeugte Sprache hat den Wort- und Anregungsinhalt der Quelle, aber die akustischen Charakteristiken eines Zielsprechers.
Der Erfinder der vorliegenden Erfindung vertritt die Ansicht, dass das von Savic et al. beschriebene System keine hochtreuen (high-fidelty) Resultate erzeugt, weil zu wenig Sprachcharakteristiken gemessen und verarbeitet werden. Zudem wird die Verwendung von 30 Millisekunden Segmenten ein schlechtes Resultat erzeugen, insbesondere bei schnell gesprochener Sprache. Im Gegensatz dazu misst und verarbeitet die vorliegende Erfindung bis zu 5 Sprachcharakteristiken und verarbeitet Sprachstücke von 10 Millisekunden Länge. Zudem ist das System gemäss der vorliegenden Erfindung in Hardware und Software ausgeführt.
Es ist anerkannt, dass Empfangen, Verarbeiten und Ausgeben grosser Mengen von Sprachdaten in Echtzeit, ohne hörbare Verzögerung, eine sehr schnelle Datenverarbeitung erfordern. In der vorliegenden Erfindung ist dieses Erfordernis erfüllt durch die Verwendung eines Digitalen Signal Prozessors (weiterhin als DSP bezeichnet). Die wesentlichen Eigenschaften des DSP ist seine Fähigkeit komplexe mathematische Berechnungen mit hoher Geschwindigkeit durchzuführen, insbesondere auf Grund der Verwendung von separaten Adress- und Datenbussen. Ein Beispiel eines kommerziell verfügbaren DSP ist der TMS320C5510 produziert durch Texas Instruments.
Die Erfindung wird nun weiter beschrieben unter Bezugnahme auf die nachfolgenden Zeichnungen, welche beispielhaft bevorzugte Ausführungsformen der Erfindung darstellen. Strukturelle Details sind nur so weit wie zum grundlegenden Verständnis der Erfindung notwendig gezeigt. Die beschriebenen Beispiele, zusammen mit den Zeichnungen, machen Fachpersonen klar, wie weitere Ausführungsformen der Erfindung realisiert werden können.
Die Zeichnungen zeigen:
1 ist ein Blockdiagramm einer bevorzugten Ausführungsform des Systems gemäss der Erfindung, wobei Stimmsignale zur Speicherung in eine Datenbank gespeist werden;
2 ist ein Blockdiagramm, welches das Umwandlungsverfahren darstellt;
3 ist ein nicht detailliertes Blockdiagramm, welches ein System ausgerüstet mit einem Mikrofon und einem Lautsprecher darstellt;
4 ist eine grafische Darstellung des Systems angepasst an einen Personalcomputer;
5 ist ein Blockdiagramm des Systems angepasst an ein lokales Netzwerk (local area network);
6 ist ein Blockdiagramm des Systems angepasst an ein offenes Netzwerk (open network);
7 ist eine schematische Ansicht einer Vorrichtung ausgestaltet zur Verwendung des Stimmumwandlungssystems;
8 ist ein Blockdiagramm eines Verfahrens zur Verwendung der Vorrichtung gemäss 7; und 9 ist ein Blockdiagramm des Verfahrens zur Verwendung einer der 7 ähnlichen Vorrichtung, welche zudem mit einer Datenbank versehen ist.
Die 1 und 2 zeigen eine Darstellung eines verbesserten Sprachumwandlungssystems, um die Stimmausgabe einer ersten Person derart in Sprache zu wandeln, wie sie gehört würde, wenn sie durch eine zweite Person gesprochen würde.
1 zeigt in nicht detaillierter Form den Trainingsmodus des Systems. Mittel zum Laden von Sprache, wie die externe Stimmprobe A 10, wird als Eingangsquelle verwendet. Die Sprachprobe 10 kann auf einem Band (tape) oder einer Platte (disk) vorhanden sein, und ist mit einem analog/digital Wandler 12 verbunden. Das Ergebnis ist als ein File 14 in einem digitalen Speicher gespeichert. Die Stimmsignale werden analysiert 16, und als WAV-File 18 gesendet. Die Signale werden dann in einer digitalen Verarbeitungsvorrichtung verarbeitet und zu einem TXT-File 20 in eine Datenbank gesendet.
Während dem Training sind Mittel verfügbar, um Sprachproben einer ersten und einer zweiten Person aufzunehmen. 2, als selbsterklärend bezeichnet, zeigt Mittel zur Analyse der beiden Sprachproben. Bevorzugt werden die aufgenommenen Sprachsignale beider Personen, der ersten und der zweiten, mit Hilfe der Soft- und Hardware in angrenzende Abschnitte 22 von jeweils nicht länger als 10 Millisekunden zerlegt, um die Signale zu analysieren.
Die Analyse umfasst zumindest zwei bis fünf Stimmcharakteristiken, Taktabstand, Stimme, Hintergrund, Ruhe und Energie. 2 zeigt zudem den Betrieb der digitalen Prozessoreinheit.
Ein Programm 24 ist zur Verfügung gestellt, um den Betrieb des digitalen Prozessoreinheit zu bestimmten. Das Programm erzeugt Umwandlungsfaktoren um den vokalen Ausgang der ersten Person in Sprachsignale umzuwandeln, wie diese erzeugt würden, wenn diese durch die zweite Person gesprochen würden.
Sprachausgabemittel 26, zum Beispiel Ohrhörer, ein Band- oder Plattenaufnahmegerät sind vorgesehen um die von der digitalen Prozessoreinheit verarbeiteten Signale aufzunehmen, um Sprache einer ersten Person als Sprache einer dritten Person zu senden. Die Weise der Sprache der dritten Person tönt nun als ob durch die zweite Person gesprochen.
3 stellt in abgekürzter Form das Training und den Betrieb eines typischen Sprachumwandlungssystems dar.
Die Mittel zum Laden von Sprachproben in einen Speicher umfassen ein Mikrofon 28, und die Stimmausgabemittel umfassen einen Lautsprecher 30. Die Verarbeitung ist dasselbe wie in 1 dargestellt.
Aus 4 ist eine Darstellung eines Sprachumwandlungssystems ersichtlich, in welchem die digitale Prozessoreinheit die zentrale Verarbeitungseinheit (CPU) eines Personalcomputers 34 ist. Das Stimmausgabemittel ist der Tongenerator 36 des Personalcomputers. Das Imitationsprogramm 38 ist als Software auf eine Platte (disk) ausgenommen, z.B. eine 3,5" Floppy-Disk, oder eine CD ROM oder DVD, welche vom Computer akzeptiert wird.
Falls diese nicht bereits installiert sind, erhält der Computer analog/digital und D/A-Wandler-Karten 40.
Bezugnehmend auf 5 ist ein bildliches Blockdiagramm des Sprachumwandlungssystems dargestellt, welches für die Verwendung in einem lokalen Netzwerk (lokal area network) angepasst ausgestaltet ist, zum Beispiel einem Ring oder einem Intranet. Die digitale Verarbeitungsvorrichtung und die Zentralprozessoreinheit sind Teil des Serverprogramms 44. Der Server ist über einen Kontroller 46 mit einem geschlossenen Netzwerk verbunden an mehrere Netzwerkcomputer 48. Jeder Computer ist mit einem Sprachlademittel 50 für Spracheingabe verbunden, beispielsweise einem Mikrofon, und mit Sprachausgabemitteln 52 zur Erzeugung einer Ausgabe, beispielsweise einer Aufnahmedisk (recording disk).
6 zeigt ein Sprachtransformationssystem angepasst für Internetverwendung.
Eine digitale Verarbeitungseinheit und eine Zentralprozessoreinheit (CPU) sind Teil eines Serverprogramms 54, verbunden durch eine Mehrzahl von Kontrollern 56 in einem offenen Netzwerk an Computer 58, welche mit dem Internet verbunden sind. Jeder Computer 58 hat ein verbundenes Mikrofon 59 zur Spracheingabe und Tonaufnahmemittel 60 für den resultierenden Output.
7 stellt eine portable Sprachumwandlungsvorrichtung dar.
Ein Gehäuse 62 beinhaltet eine elektronische Platte 64 mit einem DSP-Chip 66 und alle erforderlichen Module um eine Sprachumwandlung durchzuführen. Der grösste Teil des Umwandlungsprogramms wird durch die Verwendung dieser elektronischen Komponenten durchgeführt. Die Vorrichtung beinhaltet ebenfalls ein Mikrofon 68, eine interne Energiequelle wie eine Batterie 70, einen Lautsprecher, 72 und Schaltertastet 74 zur Benutzerkontrolle.
Die Vorrichtung umfasst vorteilhafterweise ein Statusanzeigelicht 76, typischerweise eine sich ändernde Dreifarben LED (Leuchtdiode), mit Rot, Grün und Gelb, einen Tongenerator 78, und einen Ein-Ausschalter 80 für die Energie.
8 zeigt ein Diagramm, welche das Training und die Verwendung der in 7 beschriebenen Vorrichtung darstellt.
Sobald die Energie eingeschaltet ist zeigt die LDE ein grünes Licht. Der Operator drückt auf die "MEINE STIMME" Taste 74a, welche den analogen Pfad Nr. 1 des DSP öffnet. Sobald das System bereit ist gibt es einen kurzen Ton ab. Die LED wechselt auf Rot, was den Beginn des Aufnahmemodus anzeigt. Während die Taste "MEINE STIMME" gedrückt bleibt, spricht der Operator einen kurzen Satz 76 – welcher derart vorherbestimmt werden kann, dass dieser alle normalen Typen von Sprechtönen enthält. Die Vorrichtung wandelt die Stimme in digitale Form. Der Prozess endet sobald der Operator die Taste 78 loslässt, oder nachdem die Verarbeitung abgeschlossen ist und die Vorrichtung einen Ton abgibt, welcher die Beendung andeutet. Die LED wechselt auf Gelb.
Die Vorrichtung im Trainingsmodus "lernt" 80 nun die Stimme des Operators.
Im DSP wird eine digitale Filterung des Stimmsignals durchgeführt, um ein neues Stimmenfile der Sprache zu bildet, welches auf eine Weite von 3 kHz beschränkt ist. Hohe Töne werden entfernt. Die Sprache wird zerhackt in 10 Millisekunden Segmente, und wie in 2 dargelegt verarbeitet. Die Resultate werden im Speicher gespeichert als eine Serie von Berechungsfaktoren, welche die Stimmcharakteristik, einschliesslich Ruhe, Sprachtaktabstand und Nichtstimme, definieren.
Der Operator drückt nun die "IHRE STIMME" Taste 74b, welche den analogen Pfad Nr. 2 des DSP öffnet. Sobald das System bereit ist erzeugt dieses einen kurzen Ton. Die LED wechselt auf Rot, und zeigt damit den Beginn des Aufnahmemodus an.
Während die Taste "IHRE STIMME" gedrückt bleibt, fügt der Operator einen kurzen Satz der zu kopierenden Stimme ein. Die Vorrichtung wandelt die Stimme in digitale Form um. Die Aufnahme wird beendet und der Operator lässt die Taste 76 los. Nachdem die Analyse und Verarbeitung 78 abgeschlossen sind, gibt die Vorrichtung einen Ton ab um den Abschluss anzuzeigen. Die LED wechselt auf Gelb.
Die Vorrichtung geht automatisch in den "Imitation"-Modus 80, welcher den analogen Pfad Nr. 3 des DSP öffnet, um entweder aktuelle Daten von Hintergrundgeräuschen oder Ruhe für die Verarbeitung zu empfangen. Der Operator spricht mit normaler Stimme 82. Der DSP akkumuliert die digitalen Daten in Bytes 84, wobei jedes nicht länger als 10 Millisekunden ist. Die Prozessschlaufe wird ständig repetiert.
Die digitale Verarbeitungseinheit definiert numerische Beziehungsfaktoren betreffend "MEINE STIMME" und "DEINE STIMME". Sobald der Speicher mit Bytes von 10 Millisekunden gefüllt ist startet der Prozess der digitalen Datenkonversion 86, und die Stimmparameter von "MEINE STIMME" werden durch den numerischen Beziehungsfaktor multipliziert um "DEINE STIMME" 88 zu erzeugen. Die verarbeiteten Stimmpakete sind kurz genug, und die Verarbeitung und das Senden sind schnell genug, um sicherzustellen, dass die Verzögerung zwischen dem Sprechen des Operators und der Ausgabe der "GEWÄHLTEN STIMME" kurz genug und praktisch unhörbar sind.
Bezug nehmend auf 9 wird nun graphisch ein Ausführungsbeispiel eines Sprachumwandlungssystems dargestellt, welches eine Stimmbank verwendet, welche Stimmcharakteristiken von interessierenden Personen speichert. Auf die Stimmbank wurde bereits in 1 kurz Bezug genommen.
Der Betriebsverfahren ist identisch zu dem bereits mit 8 beschriebenen Verfahren, mit Ausnahme, dass die zweite Stimme ersetzt wird durch eine wählbare, existierende Stimme, welch ein der Datenbank gespeichert ist.
Die gespeicherten Stimmcharakteristiken sind wählbar 90-92 als Eingang für die digitale Verarbeitungsvorrichtung, um den Eingang herkommend von der zweiten Person beliebig zu ersetzen. Die Vorrichtung empfängt die Stimmcharakterisierungdaten von der Datenbank, und der Prozess verläuft exakt wie mit 8 beschrieben.
Es ist beabsichtigt, dass der Bereich der beschriebenen Erfindung alle Ausführungsformen umfasst, welche innerhalb der Bedeutung der nachfolgenden Ansprüche liegt. Die vorangegangenen Beispiele zeigen nützliche Ausführungsformen der Erfindung, sind jedoch nicht als limitierend für den Schutzbereich zu erachten, weil Fachleuten bewusst ist, dass zusätzliche Varianten und Modifikation der Erfindung formuliert werden könnte, ohne über den Sinn der folgenden Patentansprüche hinauszugehen.
Zusammenfassung
Die Erfindung bezieht sich auf die Tonerzeugung, welche die Sprache eines gewählten Individuums darstellt. Die Erfindung stellt ein System und eine Vorrichtung zur Verfügung, welche es einer ersten Person ermöglicht in der normalen für ihn/sie charakteristischen Weise zu sprechen, wobei der Ton elektronisch umgewandelt und einem Hörer hörbar gemacht wird, als ob der Text durch eine zweite Person gesprochen worden wäre. Das System umfasst Mittel zum Laden von Sprachproben in einen Speicher, wobei der Speicher mit einer digitalen Verarbeitungsvorrichtung verbunden ist, und mit Mitteln zur Aufzeichnung von Sprachproben der ersten und zweiten Person, und Mittel zur Analyse der Sprache, wobei die Analyse zumindest zwei Stimmcharakteristiken aus der Gruppe von fünf Sprachcharakteristiken umfasst wobei die Gruppe Taktabstand, Stimme, Nichtstimme, Ruhe und Energie umfasst, wobei die Analyse in digitale Form gewandelt wird und der digitalen Verarbeitungsvorrichtung zugänglich ist, und ein Programm zum Ausführen der Operation der digitalen Verarbeitungsvorrichtung, um Umwandlungsfaktoren zu erzeugen, um die stimmliche Ausgabe der ersten Person in Sprachsignale zu wandeln, wie diese erzeugt würden, wenn diese durch die zweite Person gesprochen würden, und ein Stimmausgabemittel welches verarbeitete Signale der digitalen Verarbeitungsvorrichtung erhält, um Sprache durch die erste Person in der Weise einer dritten Person zu senden, wobei die Sprachweise der dritten Person derart tönt, als ob sie von der zweiten Person gesprochen worden wäre.
(1)

Claims

Ein verbessertes Sprachumwandlungssystem zum Umwandeln der stimmliche Ausgabe einer ersten Person in die Sprache, wie diese gehört würde, wenn eine zweite Person sie sprechen würde, das System umfasst: a) Mittel zum Laden von Sprachproben in einen Speicher, wobei der Speicher mit einer digitalen Verarbeitungsvorrichtung verbunden ist; b) Mittel zum Aufnahme von Sprachproben durch die genannte erste und durch eine zweite Person, und Mittel zur Analyse der genannten Sprache, wobei die genannte Analyse zumindest zwei Stimmcharakteristiken aus der Gruppe von fünf umfasst, wobei die genannte Gruppe Taktabstand, Stimme, Nichtstimme, Ruhe und Energie umfasst, und wobei die genannte Analyse in digitale Form umgewandelt ist und durch die genannte digitale Verarbeitungsvorrichtung zugänglich ist; c) ein Programm zur Steuerung der Verarbeitung der genannten di gitalen Verarbeitungsvorrichtung, um Konversionsfaktoren zu erzeugen, um die stimmliche Ausgabe der genannten ersten Person in ein Sprachsignal zu wandeln, wie diese erzeugt würde wenn es durch die genannte zweite Person gesprochen würde; und d) Stimmausgabemittel welche verarbeitete Signale der digitalen Verarbeitungsvorrichtung erhalten, zum senden von Sprach durch die genannte erste Person in der Weise einer dritten Person, wobei die Sprachweise als wie von der genannten zweiten Person gesprochen tönt.
Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei die genannten Mittel zum Laden von Sprachproben in einen Speicher ein Mikrofon umfasst.
Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei das genannte Stimmausgabemittel einen Lautsprecher umfasst.
Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei das genannte Mittel zum Laden von Sprache an einen Analog/Digitalwandler verbindbar ist, und zur nachfolgenden Verarbeitung in einem digitalen Speicher gespeichert ist.
Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei das aufgenommene Sprachsignal beider, der genannten ersten und zweiten Person, durch Soft- und Hardware in Segmente von nicht grösser als 10 Millisekunden unterteilt wird, um diese zu analysieren.
Sprachumwandlungssystem wie in Anspruch 1 beansprucht, umfassend weiter eine Sprachbank zum Speichern der Sprachcharakteristik von interessierenden Personen, wobei die genannte gespeicherte Sprachcharakteristik als Eingang für die genannte Verarbeitungsvorrichtung wählbar ist, um den Eingang entstanden von der genannten zweiten Person zu ersetzen.
Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei die genannte Verarbeitungseinheit ist Zentralprozessoreinheit (CPU) eines Personalcomputers ist, das genannte Stimmausgabemittel die Soundkarte des genannten Personalcomputers ist, und das genannte Programm als Platte (disk) erhältlich ist, welche für den genannten Computer annehmbar ist.
Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei die genannte zentrale Verarbeitungseinheit Teil eines Servers ist, welches durch einen Kontroller in einem geschlossenen Netzwerk mit mehreren Netzwerkcomputern verbunden ist, wobei jeder derselbigen Mittel zum Laden von Spracheingabe und Mittel zur Stimmausgabe hat, für eine resultierende Ausgabe.
Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei die genannte zentrale Verarbeitungseinheit Teil eines Servers ist, welcher durch einen Kontroller in einem offenen Netzwerk an Computer verbunden ist, welche mit dem Internet verbunden sind, wobei jeder Computer ein verbundenes Mikrofon zur Stimmeingabe und einen Lautsprecher für die resultierende Ausgabe hat.
Ein verbessertes Sprachumwandlungssystem im Wesentlichen wie vorhergehende beschrieben und mit Bezug auf die beiliegenden Zeichnungen.
Eine portable Sprachumwandlungsvorrichtung, umfassend ein Gehäuse enthaltend eine elektronische Platte mit allen Modulen welche erforderlich sind die Sprachumwandlung auszuführen, ein Mikrofon, eine Batterie, ein Lautsprecher und eine Benutzerkontrolle.
Die portable Sprachumwandlungsvorrichtung wie in Anspruch 11 beansprucht, weiter umfassend zumindest ein Statusanzeigelicht.
Eine portable Sprachumwandlungsvorrichtung im Wesentlichen wie vorhergehende beschrieben und mit Bezug auf die beiliegenden Zeichnungen.