DE10196989T5 - Verbessertes Sprachumwandlungssystem und -vorrichtung - Google Patents

Verbessertes Sprachumwandlungssystem und -vorrichtung Download PDF

Info

Publication number
DE10196989T5
DE10196989T5 DE10196989T DE10196989T DE10196989T5 DE 10196989 T5 DE10196989 T5 DE 10196989T5 DE 10196989 T DE10196989 T DE 10196989T DE 10196989 T DE10196989 T DE 10196989T DE 10196989 T5 DE10196989 T5 DE 10196989T5
Authority
DE
Germany
Prior art keywords
speech
voice
person
conversion system
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10196989T
Other languages
English (en)
Inventor
Shlomo Baruch
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SISBIT Ltd
Original Assignee
SISBIT Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SISBIT Ltd filed Critical SISBIT Ltd
Publication of DE10196989T5 publication Critical patent/DE10196989T5/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Ein verbessertes Sprachumwandlungssystem zum Umwandeln der stimmliche Ausgabe einer ersten Person in die Sprache, wie diese gehört würde, wenn eine zweite Person sie sprechen würde, das System umfasst:
a) Mittel zum Laden von Sprachproben in einen Speicher, wobei der Speicher mit einer digitalen Verarbeitungsvorrichtung verbunden ist;
b) Mittel zum Aufnahme von Sprachproben durch die genannte erste und durch eine zweite Person, und Mittel zur Analyse der genannten Sprache, wobei die genannte Analyse zumindest zwei Stimmcharakteristiken aus der Gruppe von fünf umfasst, wobei die genannte Gruppe Taktabstand, Stimme, Nichtstimme, Ruhe und Energie umfasst, und wobei die genannte Analyse in digitale Form umgewandelt ist und durch die genannte digitale Verarbeitungsvorrichtung zugänglich ist; c) ein Programm zur Steuerung der Verarbeitung der genannten di
gitalen Verarbeitungsvorrichtung, um Konversionsfaktoren zu erzeugen, um die stimmliche Ausgabe der genannten ersten Person in ein Sprachsignal zu wandeln, wie diese erzeugt würde wenn es durch die genannte...

Description

  • Die vorliegende Erfindung bezieht sich auf die Tonerzeugung, welche die Sprache eines gewählten Individuums darstellt.
  • Genauer gesagt stellt die Erfindung ein System und eine Vorrichtung zur Verfügung, welche es einer ersten Person ermöglicht in der normalen für ihn/sie charakteristischen Weise zu sprechen, wobei der Ton elektronisch transformiert und einem Hörer hörbar gemacht wird, als ob der Text durch eine zweite Person gesprochen worden wäre.
  • Bei der Produktion von Filmen, Fernsehspots, Werbematerial, oder im Theater tritt gelegentlich der Bedarf auf Material zu produzieren, welches die Stimme eines Schauspielers oder einer andere Person erfordert, welche zur Zeit nicht verfügbar ist um das erforderliche Material zu produzieren. Manchmal hat ein Schauspieler Schwierigkeiten eine erforderliche Sprache zu sprechen und eine andere Person ist für diese Aufgabe erforderlich. Es kann erforderlich sein, dass Darsteller und Tiere in Karikaturen in einer definierten Stimmlage sprechen, welche dem Filmerzeuger nicht verfügbar ist. Beamte des Gesetzesvollzuges könnten eine Gelegenheit haben einen Kriminellen telefonisch abzufangen indem diese eingeladen wird eine ihm/ihr bekannten Person zu treffen zu einer vereinbarten Zeit. Um diese Erfordernisse zu erfüllen sind Stimm- oder Sprachumwandlungssysteme entwickelt worden.
  • Im US Patent Nr. 5,029,211 offenbart Ozawa ein Sprachanalyse- und -synthesesystem, welches derart abläuft, dass eine Quellentonsignal für das Intervall jeder Spracheinheit bestimmt wird, welches zur Sprachsynthese verwendet wird, entsprechend einem Spektrumparameter, welcher für jede Spracheinheit basierend auf dem Spektrum erhalten wird. Dieses System umfasst Mittel zur Speicherung, Synthese und Filterung um spektrale Störungen zu entfernen.
  • Eine Methode sowie eine Vorrichtung zur Änderung der Stimmcharakteristik synthetisierter Sprache ist durch Blanton et al. im US Patent Nr. 5,113,449 offenbart. Ein Stimmtaktmodell digitaler Sprechdaten wird verändert, wobei die ursprüngliche Taktperiode aufrechterhalten wird. Die Absicht dieser Erfindung ist primär die Tonerzeugung phantasievoller Quellen wie sprechende Tiere oder Vögel.
  • Das Verschieben des Takts eines Tonsignals ist das Thema des US Patentes Nr. 5,862,232 von Shinbara et al. Tonsignale werden unterteilt in eine Serie mehrfacher Rahmen in einer Umhüllenden. Diese werdend durch eine Fourier-Transformation in einen Frequenzbereich gewandelt. Nachdem die Änderungen durchgeführt sind wird das Verfahren umgekehrt.
  • Der Stand der Technik offenbart kein Verfahren zum derartigen Verändern eines Stimmsignals, dass die erste Stimme mit hoher Qualität (high fidelity) in eine zweite Stimme gewandelt wird. Eine derartige Transformation kann nur dann genau durchgeführt werden, wenn mehrere Stimmparameter verarbeitet werden, umfassend Geschwindigkeit und Sprache.
  • Es ist daher eines der Ziele der vorliegenden Erfindung die Nachteile der aus dem Stand der Technik bekannten Stimmumwandlungssysteme zu verhindern, und ein System und eine Vorrichtung bereitzustellen, welches diese Aufgabe mit verbesserter Treue durchführt.
  • Es ist ein weiteres Ziel der vorliegenden Erfindung ein derartiges System derart anzupassen, dass es zur Verwendung auf einem Personalcomputer, einem lokalen Netzwerk (local area network) sowie einem offenen Netzwerk (open network) geeignet ist.
  • Die vorliegende Erfindung erfüllt die oben genannten Aufgaben durch das zur Verfügungsteilen eines verbesserten Sprachumwandlungssystems zum Umwandeln der stimmlichen Ausgabe einer ersten Person in Sprache, wie diese gehört würde, wenn eine zweite Person sie sprechen würde, das System umfasst:
    • a) Mittel zum Laden von Sprachproben in einen Speicher, wobei der Speicher mit einer digitalen Verarbeitungsvorrichtung verbunden ist;
    • b) Mittel zum Aufnahme von Sprachproben durch die genannte erste und durch eine zweite Person, und Mittel zur Analyse der genannten Sprache, wobei die genannte Analyse zumindest zwei Stimmcharakteristiken aus der Gruppe von fünf umfasst, wobei die genannte Gruppe Taktabstand, Stimme, Nichtstimme, Ruhe und Energie umfasst, und wobei die genannte Analyse in digitale Form umgewandelt ist und durch die genannte digitale Verarbeitungsvorrichtung zugänglich ist;
    • c) ein Programm zur Steuerung der Verarbeitung der genannten digitalen Verarbeitungsvorrichtung, um Konversionsfaktoren zu erzeugen, um die stimmliche Ausgabe der genannten ersten Person in ein Sprachsignal zu wandeln, wie diese erzeugt würde wenn es durch die genannte zweite Person gesprochen würde; und
    • d) Stimmausgabemittel welche verarbeitete Signale der digitalen Verarbeitungsvorrichtung erhalten, zum senden von Sprach durch die genannte erste Person in der Weise einer dritten Person, wobei die Sprachweise als wie von der genannten zweiten Person gesprochen tönt.
  • In einer bevorzugten Ausgestaltung der vorliegenden Erfindung wird ein Sprachumwandlungssystem zur Verfügung gestellt, wobei die aufgenommenen Sprachsignale beider, der genannten ersten und zweiten Person, durch Soft- und Hardware in Segmente von nicht grösser als 10 Millisekunden unterteilt wird, um diese zu analysieren.
  • In einer am meisten bevorzugten Ausgestaltung der vorliegenden Erfindung wird ein Sprachumwandlungssystem zur Verfügung gestellt, bei welchem die digitale Verarbeitungseinheit die Zentralrecheneinheit (CPU) eines Personalcomputers ist, das genannte Stimmausgabemittel der Tongenerator des genannten Personalcomputers ist, und das genannte Programm auf einer Platte (disk) aufgezeichnet ist, welche vom genannten Computer akzeptierbar ist.
  • Weitere Ausführungsformen der Erfindung werden nachfolgend beschrieben.
  • Im US Patent Nr. 5,327,521 von Savic et al. ist ein Hochqualitätsstimmentransformationssystem beschrieben und beansprucht, welches während einem Trainingsmode derart abläuft, dass Stimmsignalcharakteristiken repräsentierend Ziel- und Quellenstimmen gespeichert werden. Danach, während einem Echtzeittransformationsmodus, wird ein Signal repräsentierend die Quellenstimme in überlappende Segmente unterteilt, und analysiert, um das Anregungsspektrum vom Tonqualitätsspektrum zu trennen. Ein gespeichertes Zieltonqualitätsspektrum wird ersetzt für das Quel lenspektrum und wird dann gefaltet mit dem aktuellen Quellenstimmeanregungsspektrum. Die erzeugte Sprache hat den Wort- und Anregungsinhalt der Quelle, aber die akustischen Charakteristiken eines Zielsprechers.
  • Der Erfinder der vorliegenden Erfindung vertritt die Ansicht, dass das von Savic et al. beschriebene System keine hochtreuen (high-fidelty) Resultate erzeugt, weil zu wenig Sprachcharakteristiken gemessen und verarbeitet werden. Zudem wird die Verwendung von 30 Millisekunden Segmenten ein schlechtes Resultat erzeugen, insbesondere bei schnell gesprochener Sprache. Im Gegensatz dazu misst und verarbeitet die vorliegende Erfindung bis zu 5 Sprachcharakteristiken und verarbeitet Sprachstücke von 10 Millisekunden Länge. Zudem ist das System gemäss der vorliegenden Erfindung in Hardware und Software ausgeführt.
  • Es ist anerkannt, dass Empfangen, Verarbeiten und Ausgeben grosser Mengen von Sprachdaten in Echtzeit, ohne hörbare Verzögerung, eine sehr schnelle Datenverarbeitung erfordern. In der vorliegenden Erfindung ist dieses Erfordernis erfüllt durch die Verwendung eines Digitalen Signal Prozessors (weiterhin als DSP bezeichnet). Die wesentlichen Eigenschaften des DSP ist seine Fähigkeit komplexe mathematische Berechnungen mit hoher Geschwindigkeit durchzuführen, insbesondere auf Grund der Verwendung von separaten Adress- und Datenbussen. Ein Beispiel eines kommerziell verfügbaren DSP ist der TMS320C5510 produziert durch Texas Instruments.
  • Die Erfindung wird nun weiter beschrieben unter Bezugnahme auf die nachfolgenden Zeichnungen, welche beispielhaft bevorzugte Ausführungsformen der Erfindung darstellen. Strukturelle Details sind nur so weit wie zum grundlegenden Verständnis der Erfindung notwendig gezeigt. Die beschriebenen Beispiele, zusammen mit den Zeichnungen, machen Fachpersonen klar, wie weitere Ausführungsformen der Erfindung realisiert werden können.
  • Die Zeichnungen zeigen:
  • 1 ist ein Blockdiagramm einer bevorzugten Ausführungsform des Systems gemäss der Erfindung, wobei Stimmsignale zur Speicherung in eine Datenbank gespeist werden;
  • 2 ist ein Blockdiagramm, welches das Umwandlungsverfahren darstellt;
  • 3 ist ein nicht detailliertes Blockdiagramm, welches ein System ausgerüstet mit einem Mikrofon und einem Lautsprecher darstellt;
  • 4 ist eine grafische Darstellung des Systems angepasst an einen Personalcomputer;
  • 5 ist ein Blockdiagramm des Systems angepasst an ein lokales Netzwerk (local area network);
  • 6 ist ein Blockdiagramm des Systems angepasst an ein offenes Netzwerk (open network);
  • 7 ist eine schematische Ansicht einer Vorrichtung ausgestaltet zur Verwendung des Stimmumwandlungssystems;
  • 8 ist ein Blockdiagramm eines Verfahrens zur Verwendung der Vorrichtung gemäss 7; und 9 ist ein Blockdiagramm des Verfahrens zur Verwendung einer der 7 ähnlichen Vorrichtung, welche zudem mit einer Datenbank versehen ist.
  • Die 1 und 2 zeigen eine Darstellung eines verbesserten Sprachumwandlungssystems, um die Stimmausgabe einer ersten Person derart in Sprache zu wandeln, wie sie gehört würde, wenn sie durch eine zweite Person gesprochen würde.
  • 1 zeigt in nicht detaillierter Form den Trainingsmodus des Systems. Mittel zum Laden von Sprache, wie die externe Stimmprobe A 10, wird als Eingangsquelle verwendet. Die Sprachprobe 10 kann auf einem Band (tape) oder einer Platte (disk) vorhanden sein, und ist mit einem analog/digital Wandler 12 verbunden. Das Ergebnis ist als ein File 14 in einem digitalen Speicher gespeichert. Die Stimmsignale werden analysiert 16, und als WAV-File 18 gesendet. Die Signale werden dann in einer digitalen Verarbeitungsvorrichtung verarbeitet und zu einem TXT-File 20 in eine Datenbank gesendet.
  • Während dem Training sind Mittel verfügbar, um Sprachproben einer ersten und einer zweiten Person aufzunehmen. 2, als selbsterklärend bezeichnet, zeigt Mittel zur Analyse der beiden Sprachproben. Bevorzugt werden die aufgenommenen Sprachsignale beider Personen, der ersten und der zweiten, mit Hilfe der Soft- und Hardware in angrenzende Abschnitte 22 von jeweils nicht länger als 10 Millisekunden zerlegt, um die Signale zu analysieren.
  • Die Analyse umfasst zumindest zwei bis fünf Stimmcharakteristiken, Taktabstand, Stimme, Hintergrund, Ruhe und Energie. 2 zeigt zudem den Betrieb der digitalen Prozessoreinheit.
  • Ein Programm 24 ist zur Verfügung gestellt, um den Betrieb des digitalen Prozessoreinheit zu bestimmten. Das Programm erzeugt Umwandlungsfaktoren um den vokalen Ausgang der ersten Person in Sprachsignale umzuwandeln, wie diese erzeugt würden, wenn diese durch die zweite Person gesprochen würden.
  • Sprachausgabemittel 26, zum Beispiel Ohrhörer, ein Band- oder Plattenaufnahmegerät sind vorgesehen um die von der digitalen Prozessoreinheit verarbeiteten Signale aufzunehmen, um Sprache einer ersten Person als Sprache einer dritten Person zu senden. Die Weise der Sprache der dritten Person tönt nun als ob durch die zweite Person gesprochen.
  • 3 stellt in abgekürzter Form das Training und den Betrieb eines typischen Sprachumwandlungssystems dar.
  • Die Mittel zum Laden von Sprachproben in einen Speicher umfassen ein Mikrofon 28, und die Stimmausgabemittel umfassen einen Lautsprecher 30. Die Verarbeitung ist dasselbe wie in 1 dargestellt.
  • Aus 4 ist eine Darstellung eines Sprachumwandlungssystems ersichtlich, in welchem die digitale Prozessoreinheit die zentrale Verarbeitungseinheit (CPU) eines Personalcomputers 34 ist. Das Stimmausgabemittel ist der Tongenerator 36 des Personalcomputers. Das Imitationsprogramm 38 ist als Software auf eine Platte (disk) ausgenommen, z.B. eine 3,5" Floppy-Disk, oder eine CD ROM oder DVD, welche vom Computer akzeptiert wird.
  • Falls diese nicht bereits installiert sind, erhält der Computer analog/digital und D/A-Wandler-Karten 40.
  • Bezugnehmend auf 5 ist ein bildliches Blockdiagramm des Sprachumwandlungssystems dargestellt, welches für die Verwendung in einem lokalen Netzwerk (lokal area network) angepasst ausgestaltet ist, zum Beispiel einem Ring oder einem Intranet. Die digitale Verarbeitungsvorrichtung und die Zentralprozessoreinheit sind Teil des Serverprogramms 44. Der Server ist über einen Kontroller 46 mit einem geschlossenen Netzwerk verbunden an mehrere Netzwerkcomputer 48. Jeder Computer ist mit einem Sprachlademittel 50 für Spracheingabe verbunden, beispielsweise einem Mikrofon, und mit Sprachausgabemitteln 52 zur Erzeugung einer Ausgabe, beispielsweise einer Aufnahmedisk (recording disk).
  • 6 zeigt ein Sprachtransformationssystem angepasst für Internetverwendung.
  • Eine digitale Verarbeitungseinheit und eine Zentralprozessoreinheit (CPU) sind Teil eines Serverprogramms 54, verbunden durch eine Mehrzahl von Kontrollern 56 in einem offenen Netzwerk an Computer 58, welche mit dem Internet verbunden sind. Jeder Computer 58 hat ein verbundenes Mikrofon 59 zur Spracheingabe und Tonaufnahmemittel 60 für den resultierenden Output.
  • 7 stellt eine portable Sprachumwandlungsvorrichtung dar.
  • Ein Gehäuse 62 beinhaltet eine elektronische Platte 64 mit einem DSP-Chip 66 und alle erforderlichen Module um eine Sprachumwandlung durchzuführen. Der grösste Teil des Umwandlungsprogramms wird durch die Verwendung dieser elektronischen Komponenten durchgeführt. Die Vorrichtung beinhaltet ebenfalls ein Mikrofon 68, eine interne Energiequelle wie eine Batterie 70, einen Lautsprecher, 72 und Schaltertastet 74 zur Benutzerkontrolle.
  • Die Vorrichtung umfasst vorteilhafterweise ein Statusanzeigelicht 76, typischerweise eine sich ändernde Dreifarben LED (Leuchtdiode), mit Rot, Grün und Gelb, einen Tongenerator 78, und einen Ein-Ausschalter 80 für die Energie.
  • 8 zeigt ein Diagramm, welche das Training und die Verwendung der in 7 beschriebenen Vorrichtung darstellt.
  • Sobald die Energie eingeschaltet ist zeigt die LDE ein grünes Licht. Der Operator drückt auf die "MEINE STIMME" Taste 74a, welche den analogen Pfad Nr. 1 des DSP öffnet. Sobald das System bereit ist gibt es einen kurzen Ton ab. Die LED wechselt auf Rot, was den Beginn des Aufnahmemodus anzeigt. Während die Taste "MEINE STIMME" gedrückt bleibt, spricht der Operator einen kurzen Satz 76 – welcher derart vorherbestimmt werden kann, dass dieser alle normalen Typen von Sprechtönen enthält. Die Vorrichtung wandelt die Stimme in digitale Form. Der Prozess endet sobald der Operator die Taste 78 loslässt, oder nachdem die Verarbeitung abgeschlossen ist und die Vorrichtung einen Ton abgibt, welcher die Beendung andeutet. Die LED wechselt auf Gelb.
  • Die Vorrichtung im Trainingsmodus "lernt" 80 nun die Stimme des Operators.
  • Im DSP wird eine digitale Filterung des Stimmsignals durchgeführt, um ein neues Stimmenfile der Sprache zu bildet, welches auf eine Weite von 3 kHz beschränkt ist. Hohe Töne werden entfernt. Die Sprache wird zerhackt in 10 Millisekunden Segmente, und wie in 2 dargelegt verarbeitet. Die Resultate werden im Speicher gespeichert als eine Serie von Berechungsfaktoren, welche die Stimmcharakteristik, einschliesslich Ruhe, Sprachtaktabstand und Nichtstimme, definieren.
  • Der Operator drückt nun die "IHRE STIMME" Taste 74b, welche den analogen Pfad Nr. 2 des DSP öffnet. Sobald das System bereit ist erzeugt dieses einen kurzen Ton. Die LED wechselt auf Rot, und zeigt damit den Beginn des Aufnahmemodus an.
  • Während die Taste "IHRE STIMME" gedrückt bleibt, fügt der Operator einen kurzen Satz der zu kopierenden Stimme ein. Die Vorrichtung wandelt die Stimme in digitale Form um. Die Aufnahme wird beendet und der Operator lässt die Taste 76 los. Nachdem die Analyse und Verarbeitung 78 abgeschlossen sind, gibt die Vorrichtung einen Ton ab um den Abschluss anzuzeigen. Die LED wechselt auf Gelb.
  • Die Vorrichtung geht automatisch in den "Imitation"-Modus 80, welcher den analogen Pfad Nr. 3 des DSP öffnet, um entweder aktuelle Daten von Hintergrundgeräuschen oder Ruhe für die Verarbeitung zu empfangen. Der Operator spricht mit normaler Stimme 82. Der DSP akkumuliert die digitalen Daten in Bytes 84, wobei jedes nicht länger als 10 Millisekunden ist. Die Prozessschlaufe wird ständig repetiert.
  • Die digitale Verarbeitungseinheit definiert numerische Beziehungsfaktoren betreffend "MEINE STIMME" und "DEINE STIMME". Sobald der Speicher mit Bytes von 10 Millisekunden gefüllt ist startet der Prozess der digitalen Datenkonversion 86, und die Stimmparameter von "MEINE STIMME" werden durch den numerischen Beziehungsfaktor multipliziert um "DEINE STIMME" 88 zu erzeugen. Die verarbeiteten Stimmpakete sind kurz genug, und die Verarbeitung und das Senden sind schnell genug, um sicherzustellen, dass die Verzögerung zwischen dem Sprechen des Operators und der Ausgabe der "GEWÄHLTEN STIMME" kurz genug und praktisch unhörbar sind.
  • Bezug nehmend auf 9 wird nun graphisch ein Ausführungsbeispiel eines Sprachumwandlungssystems dargestellt, welches eine Stimmbank verwendet, welche Stimmcharakteristiken von interessierenden Personen speichert. Auf die Stimmbank wurde bereits in 1 kurz Bezug genommen.
  • Der Betriebsverfahren ist identisch zu dem bereits mit 8 beschriebenen Verfahren, mit Ausnahme, dass die zweite Stimme ersetzt wird durch eine wählbare, existierende Stimme, welch ein der Datenbank gespeichert ist.
  • Die gespeicherten Stimmcharakteristiken sind wählbar 90-92 als Eingang für die digitale Verarbeitungsvorrichtung, um den Eingang herkommend von der zweiten Person beliebig zu ersetzen. Die Vorrichtung empfängt die Stimmcharakterisierungdaten von der Datenbank, und der Prozess verläuft exakt wie mit 8 beschrieben.
  • Es ist beabsichtigt, dass der Bereich der beschriebenen Erfindung alle Ausführungsformen umfasst, welche innerhalb der Bedeutung der nachfolgenden Ansprüche liegt. Die vorangegangenen Beispiele zeigen nützliche Ausführungsformen der Erfindung, sind jedoch nicht als limitierend für den Schutzbereich zu erachten, weil Fachleuten bewusst ist, dass zusätzliche Varianten und Modifikation der Erfindung formuliert werden könnte, ohne über den Sinn der folgenden Patentansprüche hinauszugehen.
  • Zusammenfassung
  • Die Erfindung bezieht sich auf die Tonerzeugung, welche die Sprache eines gewählten Individuums darstellt. Die Erfindung stellt ein System und eine Vorrichtung zur Verfügung, welche es einer ersten Person ermöglicht in der normalen für ihn/sie charakteristischen Weise zu sprechen, wobei der Ton elektronisch umgewandelt und einem Hörer hörbar gemacht wird, als ob der Text durch eine zweite Person gesprochen worden wäre. Das System umfasst Mittel zum Laden von Sprachproben in einen Speicher, wobei der Speicher mit einer digitalen Verarbeitungsvorrichtung verbunden ist, und mit Mitteln zur Aufzeichnung von Sprachproben der ersten und zweiten Person, und Mittel zur Analyse der Sprache, wobei die Analyse zumindest zwei Stimmcharakteristiken aus der Gruppe von fünf Sprachcharakteristiken umfasst wobei die Gruppe Taktabstand, Stimme, Nichtstimme, Ruhe und Energie umfasst, wobei die Analyse in digitale Form gewandelt wird und der digitalen Verarbeitungsvorrichtung zugänglich ist, und ein Programm zum Ausführen der Operation der digitalen Verarbeitungsvorrichtung, um Umwandlungsfaktoren zu erzeugen, um die stimmliche Ausgabe der ersten Person in Sprachsignale zu wandeln, wie diese erzeugt würden, wenn diese durch die zweite Person gesprochen würden, und ein Stimmausgabemittel welches verarbeitete Signale der digitalen Verarbeitungsvorrichtung erhält, um Sprache durch die erste Person in der Weise einer dritten Person zu senden, wobei die Sprachweise der dritten Person derart tönt, als ob sie von der zweiten Person gesprochen worden wäre.
    (1)

Claims (13)

  1. Ein verbessertes Sprachumwandlungssystem zum Umwandeln der stimmliche Ausgabe einer ersten Person in die Sprache, wie diese gehört würde, wenn eine zweite Person sie sprechen würde, das System umfasst: a) Mittel zum Laden von Sprachproben in einen Speicher, wobei der Speicher mit einer digitalen Verarbeitungsvorrichtung verbunden ist; b) Mittel zum Aufnahme von Sprachproben durch die genannte erste und durch eine zweite Person, und Mittel zur Analyse der genannten Sprache, wobei die genannte Analyse zumindest zwei Stimmcharakteristiken aus der Gruppe von fünf umfasst, wobei die genannte Gruppe Taktabstand, Stimme, Nichtstimme, Ruhe und Energie umfasst, und wobei die genannte Analyse in digitale Form umgewandelt ist und durch die genannte digitale Verarbeitungsvorrichtung zugänglich ist; c) ein Programm zur Steuerung der Verarbeitung der genannten di gitalen Verarbeitungsvorrichtung, um Konversionsfaktoren zu erzeugen, um die stimmliche Ausgabe der genannten ersten Person in ein Sprachsignal zu wandeln, wie diese erzeugt würde wenn es durch die genannte zweite Person gesprochen würde; und d) Stimmausgabemittel welche verarbeitete Signale der digitalen Verarbeitungsvorrichtung erhalten, zum senden von Sprach durch die genannte erste Person in der Weise einer dritten Person, wobei die Sprachweise als wie von der genannten zweiten Person gesprochen tönt.
  2. Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei die genannten Mittel zum Laden von Sprachproben in einen Speicher ein Mikrofon umfasst.
  3. Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei das genannte Stimmausgabemittel einen Lautsprecher umfasst.
  4. Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei das genannte Mittel zum Laden von Sprache an einen Analog/Digitalwandler verbindbar ist, und zur nachfolgenden Verarbeitung in einem digitalen Speicher gespeichert ist.
  5. Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei das aufgenommene Sprachsignal beider, der genannten ersten und zweiten Person, durch Soft- und Hardware in Segmente von nicht grösser als 10 Millisekunden unterteilt wird, um diese zu analysieren.
  6. Sprachumwandlungssystem wie in Anspruch 1 beansprucht, umfassend weiter eine Sprachbank zum Speichern der Sprachcharakteristik von interessierenden Personen, wobei die genannte gespeicherte Sprachcharakteristik als Eingang für die genannte Verarbeitungsvorrichtung wählbar ist, um den Eingang entstanden von der genannten zweiten Person zu ersetzen.
  7. Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei die genannte Verarbeitungseinheit ist Zentralprozessoreinheit (CPU) eines Personalcomputers ist, das genannte Stimmausgabemittel die Soundkarte des genannten Personalcomputers ist, und das genannte Programm als Platte (disk) erhältlich ist, welche für den genannten Computer annehmbar ist.
  8. Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei die genannte zentrale Verarbeitungseinheit Teil eines Servers ist, welches durch einen Kontroller in einem geschlossenen Netzwerk mit mehreren Netzwerkcomputern verbunden ist, wobei jeder derselbigen Mittel zum Laden von Spracheingabe und Mittel zur Stimmausgabe hat, für eine resultierende Ausgabe.
  9. Sprachumwandlungssystem wie in Anspruch 1 beansprucht, wobei die genannte zentrale Verarbeitungseinheit Teil eines Servers ist, welcher durch einen Kontroller in einem offenen Netzwerk an Computer verbunden ist, welche mit dem Internet verbunden sind, wobei jeder Computer ein verbundenes Mikrofon zur Stimmeingabe und einen Lautsprecher für die resultierende Ausgabe hat.
  10. Ein verbessertes Sprachumwandlungssystem im Wesentlichen wie vorhergehende beschrieben und mit Bezug auf die beiliegenden Zeichnungen.
  11. Eine portable Sprachumwandlungsvorrichtung, umfassend ein Gehäuse enthaltend eine elektronische Platte mit allen Modulen welche erforderlich sind die Sprachumwandlung auszuführen, ein Mikrofon, eine Batterie, ein Lautsprecher und eine Benutzerkontrolle.
  12. Die portable Sprachumwandlungsvorrichtung wie in Anspruch 11 beansprucht, weiter umfassend zumindest ein Statusanzeigelicht.
  13. Eine portable Sprachumwandlungsvorrichtung im Wesentlichen wie vorhergehende beschrieben und mit Bezug auf die beiliegenden Zeichnungen.
DE10196989T 2000-12-04 2001-12-04 Verbessertes Sprachumwandlungssystem und -vorrichtung Withdrawn DE10196989T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IL14008200A IL140082A0 (en) 2000-12-04 2000-12-04 Improved speech transformation system and apparatus
IL140082 2000-12-04
PCT/IL2001/001118 WO2002047067A2 (en) 2000-12-04 2001-12-04 Improved speech transformation system and apparatus

Publications (1)

Publication Number Publication Date
DE10196989T5 true DE10196989T5 (de) 2004-07-01

Family

ID=11074875

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10196989T Withdrawn DE10196989T5 (de) 2000-12-04 2001-12-04 Verbessertes Sprachumwandlungssystem und -vorrichtung

Country Status (6)

Country Link
US (1) US20040054524A1 (de)
AU (1) AU2002222448A1 (de)
CA (1) CA2436606A1 (de)
DE (1) DE10196989T5 (de)
IL (1) IL140082A0 (de)
WO (1) WO2002047067A2 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7825321B2 (en) * 2005-01-27 2010-11-02 Synchro Arts Limited Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
KR101015522B1 (ko) * 2005-12-02 2011-02-16 아사히 가세이 가부시키가이샤 음질 변환 시스템
KR101569929B1 (ko) 2008-06-02 2015-11-17 코닌클리케 필립스 엔.브이. 시청각 콘텐트의 인지 복잡도를 뷰어 관심 레벨로 조정하기 위한 장치 및 방법
US9508329B2 (en) * 2012-11-20 2016-11-29 Huawei Technologies Co., Ltd. Method for producing audio file and terminal device
US8768687B1 (en) * 2013-04-29 2014-07-01 Google Inc. Machine translation of indirect speech
US9507849B2 (en) * 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624012A (en) * 1982-05-06 1986-11-18 Texas Instruments Incorporated Method and apparatus for converting voice characteristics of synthesized speech
US5113449A (en) * 1982-08-16 1992-05-12 Texas Instruments Incorporated Method and apparatus for altering voice characteristics of synthesized speech
US5029211A (en) * 1988-05-30 1991-07-02 Nec Corporation Speech analysis and synthesis system
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5386493A (en) * 1992-09-25 1995-01-31 Apple Computer, Inc. Apparatus and method for playing back audio at faster or slower rates without pitch distortion
US5675705A (en) * 1993-09-27 1997-10-07 Singhal; Tara Chand Spectrogram-feature-based speech syllable and word recognition using syllabic language dictionary
US5884261A (en) * 1994-07-07 1999-03-16 Apple Computer, Inc. Method and apparatus for tone-sensitive acoustic modeling
DK0796489T3 (da) * 1994-11-25 1999-11-01 Fleming K Fink Fremgangsmåde ved transformering af et talesignal under anvendelse af en pitchmanipulator
JPH08328590A (ja) * 1995-05-29 1996-12-13 Sanyo Electric Co Ltd 音声合成装置
JP3265962B2 (ja) * 1995-12-28 2002-03-18 日本ビクター株式会社 音程変換装置
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5943648A (en) * 1996-04-25 1999-08-24 Lernout & Hauspie Speech Products N.V. Speech signal distribution system providing supplemental parameter associated data
US5911129A (en) * 1996-12-13 1999-06-08 Intel Corporation Audio font used for capture and rendering
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US5946657A (en) * 1998-02-18 1999-08-31 Svevad; Lynn N. Forever by my side ancestral computer program
US6539354B1 (en) * 2000-03-24 2003-03-25 Fluent Speech Technologies, Inc. Methods and devices for producing and using synthetic visual speech based on natural coarticulation

Also Published As

Publication number Publication date
CA2436606A1 (en) 2002-06-13
AU2002222448A1 (en) 2002-06-18
WO2002047067A2 (en) 2002-06-13
IL140082A0 (en) 2002-02-10
WO2002047067A3 (en) 2002-09-06
US20040054524A1 (en) 2004-03-18

Similar Documents

Publication Publication Date Title
DE69334139T2 (de) Testen von Nachrichtenübertragungsgerät
DE69816221T2 (de) Sprachschnellheitsveränderungsverfahren und vorrichtung
DE69932796T2 (de) MIDI-Schnittstelle mit Sprachfähigkeit
DE60023517T2 (de) Klassifizierung von schallquellen
DE69909107T2 (de) Verfahren und vorrichtung zum automatischen komponieren
EP1371055B1 (de) Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE102012103553A1 (de) Audiosystem und verfahren zur verwendung von adaptiver intelligenz, um den informationsgehalt von audiosignalen in verbraucheraudio zu unterscheiden und eine signalverarbeitungsfunktion zu steuern
KR19990028694A (ko) 음성 전달 신호의 속성 평가 방법 및 장치
DE10054583C2 (de) Verfahren und Vorrichtung zum Aufzeichnen, Suchen und Wiedergeben von Notizen
DE10123366C1 (de) Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen
EP1563487B1 (de) Verfahren zur ermittlung akustischer merkmale von schallsignalen fuer die analyse unbekannter schallsignale und modifikation einer schallerzeugung
Cooke et al. Computational auditory scene analysis: Listening to several things at once
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE212016000292U1 (de) System zur Text-zu-Sprache-Leistungsbewertung
DE10196989T5 (de) Verbessertes Sprachumwandlungssystem und -vorrichtung
Voran Using articulation index band correlations to objectively estimate speech intelligibility consistent with the modified rhyme test
DE69629736T2 (de) Verfahren und Vorrichtung zur Sprachqualitätsbewertung
DE102004033829B4 (de) Verfahren und Vorrichtung zur Erzeugung einer Polyphonen Melodie
DE69908518T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
DE60302333T2 (de) Optimierung der Wiedergabe einer MIDI-Datei
DE60027140T2 (de) Sprachsynthetisierer auf der basis von sprachkodierung mit veränderlicher bit-rate
DE10033104C2 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
Won et al. Estimating transfer function from air to bone conduction using singing voice
Misdariis et al. Community Noise Quality Assessment (Annoyance) by means of a Virtual Audio Environment

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee