DE60119496T2

DE60119496T2 - Verfahren und Vorrichtung um eine mittels eines Klangs übermittelte Emotion zu synthetisieren

Info

Publication number: DE60119496T2
Application number: DE60119496T
Authority: DE
Inventors: c/o Sony France S.A. Pierre-Yves Oudeyer
Original assignee: Sony France SA
Current assignee: Sony France SA
Priority date: 2001-05-11
Filing date: 2001-07-13
Publication date: 2007-04-26
Anticipated expiration: 2021-07-14
Also published as: US20020198717A1; EP1256931A1; DE60119496D1; DE60124225T2; DE60124225D1; JP2003036090A

Description

Die Erfindung bezieht sich auf das Gebiet der Sprachsynthese oder Sprachwiedergabe mit einem steuerbaren emotionalen Inhalt. Besonders bezieht sich die Erfindung auf ein Verfahren und eine Vorrichtung für das steuerbare Hinzufügen eines emotionalen Gefühls zu einer Sprachsynthese oder einer Sprachprobe oder, mit Blick auf das Bereitstellen einer natürlicheren oder interessanteren Übertragung zu sprechenden Objekten oder zu Objekten, welche einen anderen Sound emittieren.
Es ist allgemein bekannt, dass die menschliche Stimme stark durch eine Emotion, entweder absichtlich (beispielsweise durch eine Intensitätserhöhung, um Zorn auszudrücken) oder unabsichtlich als eine physiologische Antwort auf eine Emotion oder die Ursache einer Emotion beeinflusst wird: trockener Mund, verändertes Atmungsmuster etc.. Diese durch eine Emotion verursachten Änderungen in der Stimme und in der Übertragung fügen den Informationen, welche durch den Sprecher übermittelt werden, eine subjektive Dimension hinzu, und sind für eine erfolgreiche Kommunikation nützlich.
Mit dem Auftreten von immer komplizierteren Objekten, welche durch Sprache oder durch Soundausdrücke kommunizieren, wie beispielsweise Haustierroboter und dergleichen, welche menschliche oder tierische Verhaltensweisen imitieren, gibt es einen steigenden Bedarf an der Verwendung von technischen Mitteln, um auch einen Emotionsausdruck in ihrer Kommunikation zu vermitteln. In der Tat ist beispielsweise bei einem Roboterapparat eine Sprechfunktion mit einem emotionalen Ausdruck sehr wirkungsvoll, um ein gutes Verhältnis zwischen dem Roboterapparat und einem menschlichen Benutzer aufzubauen. Zusätzlich zur Förderung eines guten Verhältnisses kann den menschlichen Benutzer ein Ausdruck von Zufriedenheit oder von Unzufriedenheit auch anregen und ihn/sie motivieren, um auf den emotionalen Ausdruck des Roboterapparates zu antworten oder zu reagieren. Insbesondere ist eine solche Funktion bei einem Roboter mit einer Lernfähigkeit nützlich.
Die Möglichkeit des Hinzufügens eines Emotionsausdrucks bei der Sprachübertragung ist auch für computergestützte Systeme nützlich, welche Personen Texte oder Reden vorlesen, welche aus einem oder anderem Grund nicht lesen können. Es gibt Beispiele solcher Systeme, welche Romane, Zeitschriftenartikel oder dergleichen vorlesen, wobei deren Hörvergnügenvermögen für eine Fokussierung der Aufmerksamkeit erhöht werden kann, wenn die Lesestimme Emotionen simulieren kann.
Gemäß dem Stand der Technik sind drei allgemeine Vorgehensweisen bekannt, um Emotionen bei der Sprachübertragung zu imitieren.
Eine erste Vorgehensweise, welche die schwierigste und vermutlich weniger zufriedenstellende Vorgehensweise ist, basiert auf linguistischen Theorien für die Bestimmung von Intonationen.
Eine zweite Vorgehensweise nutzt Datenbanken mit durch menschliche Sprecher produzierten Phrasen, die mit den unterschiedlichen Emotionen eingefärbt sind. Um eine spezifische Phrase mit dem gewünschten Emotionsausdruck zu produzieren, wird die am ähnlichsten klingende Phrase mit dem entsprechenden Emotionsausdruck von der Datenbank extrahiert. Ihre Tonhöhenkontur wird gemessen und kopiert, um sie auf der ausgewählten, zu produzierenden Phrase aufzubringen. Diese Vorgehensweise ist hauptsächlich verwendbar, wenn die Datenbank und die produzierten Phrasen sehr ähnliche grammatikalische Strukturen aufweisen. Die Implementierung ist ebenfalls schwierig.
Eine dritte Vorgehensweise, welche als die wirkungsvollste Vorgehensweise betrachtet wird, ist die Anwendung von Sprachsynthesizern, welche eine Datenbank aus aufgezeichneten menschlichen Stimmen abfragen. Diese Sprachsynthesizer funktionieren, indem sie Phoneme oder kurze Silben verketten, produziert durch die menschliche Stimme zum Resynthetisieren von Soundsequenzen, welche der geforderten gesprochenen Nachricht entsprechen. Anstatt nur neutrale Stimmen zu enthalten, umfasst die Datenbank mit unterschiedlichen Emotionen gesprochene Stimmen. Jedoch haben diese Systeme zwei grundlegende Beschränkungen. Erstens sind sie schwierig zu implementieren, und zweitens werden die Datenbanken normalerweise durch Stimmen von unterschiedlichen Personen aus praktischen Gründen geschaffen. Dieses kann nachteilig sein, wenn Zuhörer erwarten, dass die synthetisierte Stimme immer von dem gleichen Sprecher zu kommen scheint.
Es gibt auch ein Sprachsynthese-Softwaremodul, welches die Steuerung einer gewissen Anzahl von Parametern erlaubt, aber innerhalb einer geschlossenen Architektur, welche für das Entwickeln von neuen Anwendungen nicht zugänglich ist.
Das Patentdokument US-A-5860064 beschreibt ein Softwaretool, welches eine Stimmemotion auf einen ausgewählten Text aufbringen kann. Der Text erscheint auf einem Bildschirm, und die Wörter können für das Aufprägen einer Emotion von einem Nutzer durch "Handgriffe" ausgewählt werden, welche selektiv beispielsweise die Tonlautstärke oder die Tondauer beeinflussen. Die Emotionen werden durch Farbekodes, Hervorheben oder eine Schriftart angezeigt. Nachdem ein Textabschnitt ausgewählt wurde und eine bestimmte Stimmemotion gewählt wurde, werden geeignete Sprachsynthesizerwerte von einer Verweistabelle erlangt und bei Sprachsynthesizerbefehlen verwendet. Zusätzlich zu Tonlautstärke und Tondauer werden auch Tonhöheneinstellparameter von dem Sprachsynthesizer verwendet.
Angesichts des Vorangehenden schlägt die Erfindung eine neue Vorgehensweise vor, welche einfach zu implementieren ist, überzeugende Ergebnisse liefert, und einfach zu parametrisieren ist.
Die Erfindung ermöglicht es auch, Emotionen bei einer Sprachsynthese für bedeutungsvolle Sprachinhalte in einer erkennbaren Sprache, sowohl mit einer natürlich klingenden Stimme als auch mit absichtlich verzerrten, übertriebenen Stimmen zu reproduzieren, beispielsweise gesprochen durch Cartoon-Figuren, sprechende Tiere oder nicht-menschliche animierte Gestalten, einfach durch das Nutzen von Parametern. Die Erfindung ist auch offen für das Zuordnen von Emotionen auf Stimmen, welche einen bedeutungslosen Sound übertragen, wie beispielsweise Geplapper.
Insbesondere schlägt die Erfindung gemäß einem ersten Aspekt ein Synthetisierverfahren für eine auf einem Sound übertragene Emotion vor, indem zumindest ein elementarer Soundabschnitt davon selektiv modifiziert wird, bevor der Sound übertragen wird, wobei
die Modifikation von einem Operatoranwendungsschritt produziert wird, bei welchem zumindest ein Operator selektiv an zumindest einem elementaren Soundabschnitt angewendet wird, um eine spezifische Modifikation bei einer Charakteristik davon zu bestimmen, wie beispielsweise der Tonhöhe oder der Tondauer, in Übereinstimmung mit einer zu synthetisierenden Emotion, wobei das Verfahren durch eine probabilistische Akzentuierungsphase gekennzeichnet ist, bei welcher zumindest ein vorher genannter Operator nur bei ausgewählten elementaren Soundabschnitten, welche für eine Akzentuierung bestimmt sind, angewendet wird.
Der Operatoranwendungsschritt umfasst vorzugsweise das Bilden zumindest eines Satzes von Operatoren, wobei der Satz zumindest einen Operator umfasst, um eine Tonhöhencharakteristik zu modifizieren, und/oder zumindest einen Operator, um eine Tondauercharakteristik der elementaren Soundabschnitte zu modifizieren.
Es kann auch beabsichtigt werden, einen Operatoranwendungsschritt für das Anwenden zumindest eines Operators vorzusehen, um eine Tonintensitätscharakteristik der elementaren Soundabschnitte zu modifizieren.
In der Ausführungsform ist ein Schritt zum Parametrisieren zumindest eines Operators vorgesehen, wobei ein numerischer Parameter einen Betrag von einer spezifischen Modifikation bestimmt, welche mit einem Operator in Übereinstimmung mit einer zu synthetisierenden Emotion verbunden ist.
Vorteilhafterweise umfasst der Operatoranwendungsschritt das Anwenden:

– eines Operators, um selektiv zu bewirken, dass der Zeitverlauf der Tonhöhe eines elementaren Soundabschnitts entsprechend einer bestimmten Steigungscharakteristik steigt oder fällt; und/oder
– eines Operators, um selektiv zu bewirken, dass der Zeitverlauf der Tonhöhe eines elementaren Soundabschnitts gleichmäßig um einen bestimmten Wert steigt oder fällt; und/oder
– eines Operators, um selektiv zu bewirken, dass die Tondauer eines elementaren Soundabschnitts um einen bestimmten Wert zunimmt oder abnimmt.

Das Verfahren kann eine Universalphase umfassen, bei welcher zumindest ein Operator systematisch bei allen elementaren Soundabschnitten zum Bilden einer bestimmten Soundsequenz angewendet wird.
In dieser Phase kann zumindest ein Operator mit der gleichen Operatorparametrisierung an allen elementaren Soundabschnitten zum Bilden einer bestimmten Soundsequenz angewendet werden.
Die ausgewählten elementaren Soundabschnitte können durch eine Zufallsauswahl aus den verfügbaren elementaren Soundabschnitten ausgewählt werden, wobei vorzugsweise elementare Soundabschnitte mit einer programmierbaren Wahrscheinlichkeit ausgewählt werden.
Die verfügbaren elementaren Soundabschnitte können sein:

– alle elementaren Soundabschnitte, wenn eine Quelle der Abschnitte eine Akzentuierung bei einigen Datenabschnitten zulässt, oder
– nur jene elementaren Soundabschnitte, welche für eine Akzentuierung zugelassen sind, wenn die Quelle Akzentuierungen bei einigen Datenabschnitten nicht zulässt.

Eine gleiche Operatorparametrisierung kann für den zumindest einen Operator verwendet werden, welcher in der probabilistischen Akzentuierungsphase angewendet wird.
Die Verfahren kann eine Akzentuierungsphase für erste und letzte elementare Soundabschnitte umfassen, in welcher zumindest ein Operator nur bei einer Gruppe aus zumindest einem elementaren Soundabschnitt zum Bilden des Anfangs und des Endes der bestimmten Soundsequenz angewendet wird, wobei letztere beispielsweise eine Phrase ist.
Die elementaren Soundabschnitte können einer Silbe oder einem Phonem entsprechen.
Die bestimmte Soundsequenz kann verständlicher Sprechweise oder unverständlichen Soundarten entsprechen.
Die elementaren Soundabschnitte können als formatierte Datenwerte dargestellt werden, welche eine Tondauer und/oder zumindest einen Tonhöhenwert spezifizieren, welcher über bestimmte Anteile der Tondauer oder über die Gesamttondauer des elementaren Sounds auftritt.
In diesem Fall können die Operatoren wirken, um die Datenwerte selektiv zu modifizieren.
Das Verfahren kann ohne das Ändern des Datenformats der Daten des elementaren Soundabschnitts und stromaufwärts von einer Interpolationsstufe ausgeführt werden, wobei die Interpolationsstufe die Daten verarbeiten kann, welche in Übereinstimmung mit einer zu synthetisierenden Emotion in der gleichen Art und Weise wie die Daten modifiziert sind, welche von einer Arbiträrquelle für elementare Soundabschnitte erhalten werden.
Entsprechend einem zweiten Aspekt schafft die Erfindung eine Vorrichtung zum Synthetisieren einer auf einem Sound übertragenen Emotion unter Verwendung eines Hilfsmittels zum selektiven Modifizieren von zumindest einem elementaren Soundabschnitt davon, bevor der Sound übertragen wird,
wobei das Hilfsmittel umfasst, ein Operatoranwendungsmittel zum Anwenden zumindest eines Operators bei zumindest einem elementaren Soundabschnitt, um eine spezifische Modifikation bei einer Charakteristik davon in Übereinstimmung mit einer zu synthetisierenden Emotion zu bestimmen, dadurch gekennzeichnet, dass es weiter umfasst, ein Hilfsmittel zum Ausführen einer probabilistischen Akzentuierungsphase, wobei das Hilfsmittel in der Lage ist, zumindest einen vorher genannten Operator nur bei ausgewählten elementaren Soundabschnitten, welche für eine Akzentuierung bestimmt sind, anzuwenden.
Die oben im Kontext des Verfahrens (erster Aspekt) dargestellten optionalen Kennzeichen können mit kleinen Abweichungen auf die Vorrichtung gemäß dem zweiten Aspekt zutreffen.
Entsprechend einem dritten Aspekt schafft die Erfindung einen Datenträger, welcher Softwaremodule zum Ausführen des Verfahrens gemäß dem ersten oben genannten Aspekt umfasst.
Die Erfindung und ihre Vorteile werden besser durch das Lesen der nachfolgenden Beschreibung ihrer bevorzugten Ausführungsformen verstanden, welche lediglich als nicht-einschränkende Beispiele dargestellt sind, mit Bezug auf die beigefügten Zeichnungen, in welchen:
die 1a und 1b ein Programmbeispiel zum Produzieren eines in Übereinstimmung mit einem Verfahren zu äußernden Satzes sind, welches in einem früheren Europäischen Patent des Antragstellers beschrieben ist, aus welchem das Vorliegende Priorität beansprucht,
die 2 ein Diagramm ist, welches darstellt, wie Basisemotionen auf orthogonalen Achsen positioniert werden können, welche entsprechend Valenz und Erregung darstellen,
die 3 ein Blockdiagramm ist, welches die Funktionseinheiten zeigt, welche in ein Sprachsynthesesystem eingebunden sind, bei welchem die vorliegende Erfindung angewendet werden kann,
die 4a eine Abbildung einer typischen Datenstruktur zum Spezifizieren einer Silbe ist, welche durch das System von 3 ausgewertet wird,
die 4b eine Abbildung ist, welche anzeigt, wie eine Tonhöhensignalkontur nach Interpolation aus den Daten erzeugt wird, welche in der 4a dargestellt sind,
die 5 ein Blockdiagramm eines Operator-basierten Emotionserzeugungssystems gemäß einer bevorzugten Ausführungsform der Erfindung ist,
die 6 eine Diagrammdarstellung von Tonhöhenoperatoren ist, welche durch das System von 5 verwendet werden,
die 7 eine Diagrammdarstellung von Tonintensitätsoperatoren ist, welche im System von 5 optional verwendet werden können,
die 8 eine Diagrammdarstellung der Tondaueroperatoren ist, welche durch das System von 5 verwendet werden, und
die 9 ein Flussdiagramm eines Emotionserzeugungsprozesses ist, welcher mit Silbendaten durch das System von 5 ausgeführt wird.
Die Erfindung ist eine Entwicklung einer Arbeit, welche Gegenstand einer früheren veröffentlichten Europäischen Patentanmeldung mit Nummer EP-A-1256931 des Anmelders war, angemeldet am 11. Mai 2001, und zu welcher die vorliegende Anmeldung Priorität beansprucht.
Die oben genannte frühere Anmeldung betrifft eine Sprachsyntheseverfahren zum Synthetisieren einer Stimme in Übereinstimmung mit Informationen von einem Apparat, welcher eine Ausdrucksfähigkeit und zumindest ein Emotionsmodell aufweist. Das Verfahren hier umfasst, einen Emotionszustandsunterscheidungsschritt zum Unterscheiden eines Emotionszustandes des Modells von einem Apparat mit einer Ausdrucksfähigkeit, einen Satzausgangsschritt zum Ausgeben eines Satzes, welcher einen zu äußernden Inhalt in Form einer Stimme darstellt, einen Parametersteuerschritt zum Steuern eines Parameters für den Gebrauch bei der Sprachsynthese, abhängig von dem in dem Emotionszustandsunterscheidungsschritt unterschiedenen Emotionszustand, und einen Sprachsyntheseschritt zum Eingeben des Satzausgangs von dem Satzausgangsschritt in eine Sprachsyntheseeinheit und zum Synthetisieren einer Stimme in Übereinstimmung mit dem Steuerparameter.
Typischerweise hat die Stimme in der früheren Anmeldung einen bedeutungslosen Inhalt.
Wenn der emotionale Zustand des emotionalen Modells größer als ein vorbestimmter Wert ist, gibt der Satzausgangsschritt den Satz aus und überträgt ihn zu der Sprachsyntheseeinheit.
Der Satzausgangsschritt kann einen Satz ausgeben, welcher zufällig für jede Äußerung erhalten wird, und kann ihn zu der Sprachsyntheseeinheit übertragen.
Die Sätze können eine Anzahl von Phonemen umfassen, wobei ein Parameter die Tonhöhe, die Tondauer und die Tonintensität eines Phonems umfassen kann.
Der Apparat mit einer Ausdrucksfähigkeit kann eine autonome Art eines Roboterapparats sein, welcher in Erwiderung auf gelieferte Eingangsinformationen agiert. Das Emotionsmodell kann derart beschaffen sein, so dass es die in Frage kommende Aktion verursacht. Das Sprachsyntheseverfahren kann dann weiter den Emotionsmodellzustandsänderungsschritt in Übereinstimmung mit den Eingangsinformationen umfassen, wodurch die Aktion bestimmt wird.
Die oben genannte frühere Anmeldung erstreckt sich auch auf einen Apparat, welcher das oben genannte Verfahren ausführen kann.
Die oben genannte frühere Anwendung umfasst außerdem einen autonomen Typ, und umfasst beispielsweise einen Roboter, welcher in Übereinstimmung mit den gelieferten Eingangsinformationen agiert und umfasst, ein Emotionsmodell, welches die in Frage kommende Aktion verursacht, ein Emotionszustandsunterscheidungsmittel zum Unterscheiden des Emotionszustandes des Emotionsmodells, ein Satzausgangsmittel zum Ausgeben eines Satzes, welcher einen zu äußernden Inhalt in Form einer Stimme darstellt, ein Parametersteuermittel zum Steuern eines Parameters, welcher in der Sprachsynthese verwendet wird, abhängig von dem Emotionszustand, welcher durch das Emotionszustandsunterscheidungsmittel unterschieden wird, und ein Sprachsynthesemittel, welches den Satzausgang von dem Satzausgangsmittel empfängt, und eine Stimme in Übereinstimmung mit dem Steuerparameter resynthesiert.
Bevor Ausführungsformen der Erfindung detailliert beschrieben werden, fasst der nachfolgende Abschnitt einleitende Untersuchungen des Anmelders zusammen, deren Aspekte durch die oben genannte frühere anhängige Europäische Patentanmeldung abgedeckt werden.
EINLEITENDE UNTERSUCHUNGEN
Mehr Aspekte, welche die oben genannte frühere anhängige Europäische Patentanmeldung betreffen, zu welcher Priorität beansprucht wird, werden nachfolgend bis zu dem Ende des Abschnitts dargestellt, der mit "Validation with Human Subjects" überschrieben ist. Die letzten Jahre waren durch die zunehmende Entwicklung von persönlichen Robotern gekennzeichnet, welche entweder als neue pädagogische Technologien verwendet werden (Druin A., Hendler J. (2000) "Robots for Kids: Exploring new Technologies for Learning", Morgan Kauffman Publishers) oder zur reinen Unterhaltung (Fujita M., Kitano H. (1998) "Development of an autonomous quadruped Robot für Robot Entertainment", autonomous Robots, 5; Kusahara M. "The Art of Creating subjective Reality: an Analysis of Japanese digital Pets", in Boudreau E., ed., in Artificial Life 7 Workshop Proceedings, pp. 141–144). Typischerweise sehen diese Roboter wie vertraute Haustiere aus, beispielsweise wie Hunde oder Katzen (siehe beispielsweise den Sony AIBO Roboter), oder besitzen manchmal die Gestalt von Kleinkindern, wie beispielsweise die Humanoiden SDR3-X (Sony).
Die Interaktionen mit diesen Maschinen unterscheiden sich deutlich von der Art und Weise wie Menschen mit traditionellen Computern interagieren. Bis jetzt hatten Menschen die Gewohnheit die Anwendung von sehr unnatürlichen Konventionen und Medien, wie beispielsweise von Tastaturen oder von Dialogfenstern, zu erlernen, und mussten ein bedeutendes Wissen über die Funktionsweise von Computern besitzen, um sie anwenden zu können. Demgegenüber sollten persönliche Roboter selbst versuchen, die natürlichen Konventionen (wie beispielsweise die natürliche Sprache oder soziale Verhaltensregeln wie die Höflichkeit) und die Medien (wie beispielsweise die Sprache oder die Emotion) zu erlernen, welche die Menschen seit Tausenden von Jahren anwenden.
Unter den Fähigkeiten, welche diese persönlichen Roboter benötigen, ist eine der grundlegendsten Fähigkeiten die Fähigkeit, menschliche Emotionen zu beherrschen (Picard R. (1997) Affective Computing, MIT Press.), und insbesondere sollten sie in der Lage sein, sowohl menschliche Emotionen zu erkennen als auch ihre eigenen Emotionen auszudrücken. In der Tat sind nicht nur Emotionen für das menschliche Urteilen entscheidend, aber sie haben eine zentrale Bedeutung für soziale Verhaltensregeln (Halliday M. (1975) "Learning how to mean: Explorations in the Development of Language", Elsevier, NY.) und insbesondere für die Steuerung von Dialogabläufen. Emotionale Kommunikation ist gleichzeitig primitiv genug und leistungsfähig genug, so dass Menschen sie viel bei der Interaktion mit Haustieren anwenden, insbesondere bei der Zähmung von Haustieren. Dieses ist auch zweifellos das, welches Kindern das Bootstrap-Sprachenlernen ermöglicht (Halliday, 1975 oben zitiert), und welches anspornen sollte, Robotern eine natürliche Sprache beizubringen.
Abgesehen von der Sprache drücken Menschen ihre Emotionen gegenüber Anderen auf zwei Arten aus: durch die Modulation des Gesichtsausdruckes (Ekman, P. (1982) "Emotions in the Human Face", Cambridge University Press, Cambridge) und durch die Modulation der Intonation der Stimme (Banse, R. und Sherer, K. R., (1996) "Acoustic Profiles in Vocal Emotion Expression", Journal of Personality and Social Psychology, 70 (3): 614–636). Während die Forschung auf dem Gebiet der automatisierten Erkennung von Emotionen in Gesichtsausdrücken jetzt sehr reichhaltig ist (A. Samal, P. Iyengar (1992) "Automatic Recognition and Analysis of Human Faces and Facial Expression: a Survey", Pattern Recognition, 25 (1): 65–77), ist die Forschung, welche sich mit der Sprachmodalität sowohl bei einer automatisierten maschinellen Produktion als auch Erkennung beschäftigt, erst seit sehr wenigen Jahren aktiv (Bosh L. T. (2000) "Emotions: What is possible in the ASR Framework?", in Proceedings of the ISCA Workshop on Speech and Emotion).
Die Forschung des Anmelders bestand darin, einem Baby-artigen Roboter die Fähigkeit zu verleihen, Emotionen mit der Stimme auszudrücken. Anders als bei den meisten vorhandenen Arbeiten, hat der Anmelder auch die Möglichkeit geprüft, Emotionen in Cartoon-artiger bedeutungsloser Sprache zu übertragen, welches unterschiedliche Anforderungen und unterschiedliche Restriktionen aufweist als beispielsweise der Versuch, eine natürlich klingende, Erwachsenen-artige, normale emotionale Sprache zu produzieren. Beispielsweise bestand eine Aufgabe darin, dass Emotionen von Menschen mit einem unterschiedlichen kulturellen oder linguistischen Hintergrund erkannt werden können. Die Vorgehensweise verwendet eine verkettete Sprachsynthese, und die Algorithmen sind einfacher und vollständig spezifiziert im Vergleich zu jenen, welche in anderen Studien, wie beispielsweise in den von Breazal durchgeführten Studien, verwendet werden.
DIE AKUSTISCHEN KORRELATE VON EMOTIONEN IN DER MENSCHLICHEN SPRACHE
Um diese Aufgabe zu lösen, wurde zuerst festgestellt, ob es zuverlässige akustische Korrelate einer Emotion/eines Affekts in den akustischen Charakteristiken eines Sprachsignals gibt. Eine Anzahl von Forschern hat diese Fragestellung bereits untersucht (Fairbanks 1940, Burkhardt F., Sendlmeier W., (2000) "Verification of Acoustical Correlates of Emotional Speech using Formant-Synthesis", in Proceedings of the ISCA Workshop in Speech and Emotion, Banse R. und Sherer K. R. 1996 "Acoustic Profiles in Vocal Emotion Expression", Journal of Personality and Social Psychology, 70 (3): 614–636).
Ihre Resultate stimmen bei Sprachkorrelaten überein, welche von physiologischen Restriktionen kommen, und welche umfassenden Kategorien von Elementaremotionen entsprechen, aber erzielen keine Übereinkunft und sind unklar, wenn man die Unterschiede zwischen den akustischen Korrelaten von beispielsweise Furcht und Überraschung oder Langeweile und Traurigkeit betrachtet. In der Tat sind bestimmte emotionale Zustände häufig mit bestimmten physiologischen Zuständen korreliert (Picard 1997 "Affective Computing", MIT Press), welche wiederum ganz mechanische und folglich vorhersagbare Effekte auf die Sprache, besonders auf die Tonhöhe, (Fundamentalfrequenz FO) Timing und Sprachqualität haben. Beispielsweise wenn man sich in einem Zustand des Zornes, der Furcht oder der Freude befindet, wird das sympathische Nervensystem erregt, der Puls und der Blutdruck steigen, der Mund wird trocken, und es tritt gelegentliches Muskelzittern auf. Die Sprache ist dann laut, schnell und wird mit einer starken Hochfrequenzenergie ausgesprochen. Wenn man gelangweilt oder traurig ist, wird das parasympathische Nervensystem erregt, der Puls und der Blutdruck nehmen ab, und der Speichelfluss nimmt zu, und wird eine Sprache erzeugt, welche langsam ist, eine niedrige Tonhöhe besitzt, und eine geringe Hochfrequenzenergie (Breazal, 2000) aufweist.
Darüber hinaus bedeutet die Tatsache, dass diese physiologischen Effekte ziemlich allgemeingültig sind, dass es gemeinsame Tendenzen bei den akustischen Korrelaten der Elementaremotionen über unterschiedliche Kulturen hinweg gibt. Dieses wurde genau untersucht in Studien wie (Abelin A, Allwood J., (2000) "Cross-linguistic Interpretation of Emotional Prosody", in Proceedings of the ISCA Workshop on Speech and Emotion) oder (Tickle A. (2000) "English and Japanese Speaker's Emotion Vocalisations and Recognition: a Comparison highlighting Vowel Quality", ISCA Workshop on Speech and Emotion, Belfast 2000), welche Experimente ausführten, in welchen Amerikaner versuchen mussten, die Emotion entweder von einem anderen Amerikaner oder von einem Japaner nur unter Verwendung von akustischen Informationen zu erkennen (die Äußerungen waren bedeutungslos, also waren keine semantischen Informationen vorhanden).
Japaner wurden ebenfalls gebeten zu versuchen, zu entscheiden, welche Emotionen andere Japaner oder Amerikaner zu übermitteln versuchten. Zwei Resultate kamen aus der Studie heraus: 1) es gab nur einen geringen Unterschied zwischen dem Versuchsergebnis, die übermittelten Emotionen zu erkennen, von Menschen mit der gleichen Sprache oder mit der anderen Sprache, und dies gilt für Japanische sowie für amerikanische Testpersonen; 2) die Testpersonen waren absolut betrachtet weit entfernt von vollkommenen Erkennern: die beste Erkennungswertung war 60 Prozent. (Dieses Resultat kann zum Teil durch die Tatsache erklärt werden, dass die Testpersonen gebeten wurden, unsinnige Äußerungen zu äußern, welches ziemlich unnatürlich ist, aber wird durch Studien bestätigt, bei welchen Leute gebeten wurden, semantisch neutrale, aber bedeutungsvolle Sätze zu äußern (Burkhart und Sendlmeier (2000), oben zitiert).
Das erste Resultat zeigt an, dass die Aufgabe, einer Maschine die Fähigkeit zu verleihen, einen Affekt mit der Genauigkeit eines menschlichen Sprechers sowohl mit bedeutungsloser Sprache als auch in einer Weise auszudrücken, die durch Menschen von unterschiedlichen Kulturen erkennbar ist, in der Theorie lösbar ist. Das zweite Resultat zeigt, dass ein vollkommenes Resultat nicht erwartet werden kann. Die Tatsache, dass die Menschen nicht so gut sind, wird hauptsächlich durch die Tatsache erklärt, dass mehrere Emotionszustände sehr ähnliche physiologische Korrelate und folglich akustische Korrelate aufweisen. In den tatsächlichen Situationen bewältigen die Menschen die Mehrdeutigkeiten, indem sie den Kontext und/oder andere Modalitäten verwenden. In der Tat haben einige Experimente gezeigt, dass die multimodale Natur des Ausdrückens eines Affekts zu einem MacGurk-Effekt für Emotionen führen kann (Massaro D., (2000) "Multimodal Emotion Perception: analogous to Speech Processes", ISCA Workshop on Speech and Emotion, Belfast 2000) und dass unterschiedliche Kontexte Leute verleiten können, die gleiche Intonation als Ausdruck unterschiedlicher Emotionen für jeden Kontext zu interpretieren (Cauldwell R. (2000) "Where did the Anger go? The Role of Context in interpreting Emotions in Speech.", ISCA Workshop on Speech and Emotion). Diese Entdeckungen zeigen an, dass es nicht notwendig ist, eine Maschine Äußerungen erzeugen zu lassen, welche feine Unterscheidungen treffen; nur die grundlegendsten Affekte sollten untersucht werden.
Eine Anzahl von Experimenten, welche Computer-gestützte Techniken der Soundmanipulation anwenden, wurden durchgeführt, um zu erforschen, welcher besondere Aspekt der Sprache Emotionen am herausragendsten reflektiert. (Murray I. R., Arnott J. L., (1993) "Towards a Simulation of Emotion in Synthetic Speech: a Review of the Literature on Human Vocal Emotion", JASA 93 (2), pp. 1097–1108; Banse und Scherer, 1996; Burkhardt und Sendlmeier, 2000; Williams und Stevens, 1972, oben zitiert) stimmen im allgemeinen alle darin überein, dass die entscheidendsten Aspekte jene sind, welche sich auf den Satzrhythmus beziehen: die Kontur der Tonhöhe (oder von f0), die Tonintensitätskontur und das Timing der Äußerungen. Einige neuere Studien zeigten, dass die Sprachqualität (Gobl C., Chasaide A. N. (2000) "Testing Affective Correlates of Voice Quality through Analysis und Resynthesis", in Proceedings of the ISCA Workshop on Emotion and Speech) und bestimmte Koartikulationsphänomene (Kienast M., Sendlmeier W. (2000) "Acoustical Analysis of Spectral and Temporal Changes in Emotional Speech", in Proceedings of the ISCA Workshop on Emotion and Speech) sind auch mit bestimmten Emotionen angemessen korreliert.
DIE ERZEUGUNG DER CARTOON-EMOTIONSSPRACHE
In dem oben genannten Kontext führte der Anmelder eine beträchtliche Forschung auf dem Gebiet der Erzeugung der Cartoon-Emotionssprache durch. (Jedoch umfasst der Anwendungsbereich der vorliegenden Erfindung alle Sprachformen, einschließlich der natürlichen menschlichen Sprache.) Das Ziel unterschied sich deutlich von dem Ziel der meisten existierenden Arbeiten auf dem Gebiet der synthetischen Emotionssprache. Während es traditionell das Ziel war (siehe, Cahn J. (1990) "The Generation of Affect in Synthesized Speech", Journal of the I/O Voice American Society, 8: 1–19, Iriondo I., et al. (2000) "Validation of an Acoustical Modelling of Emotional Expression in Spanish using Speech Synthesis Techniques", in Proceedings of ISCA Workshop on Speech and Emotion, Edgington M. D., (1997) "Investigating the Limitations of Concatenative Speech Synthesis", in Proceedings of EuroSpeech'97, Rhode, Greece, Iida et al. 2000), Erwachsenen-artige natürlich vorkommende Emotionssprache zu produzieren, war es das Ziel der Studie, einem jungen Geschöpf die Fähigkeit zu verleihen, seine Emotionen in übertriebener Art oder Cartoon-Art auszudrücken, indem es unsinnige Worte verwendet (dieses ist notwendig, weil Experimente mit Robotern durchgeführt wurden, welche eine Sprache erlernen mussten: diese vorlinguistische Fähigkeit, nur Intonation zu verwenden, um grundlegende Emotionen auszudrücken, dient dem Bootstrap-Erlernen. Die Sprache musste lebhaft klingen, durfte sich nicht wiederholen und musste dem Plappern von Kleinkindern ähnlich sein.
Zusätzlich mussten die Algorithmen so einfach wie möglich sein, mit so wenig Parametern wie möglich: kurz, was gesucht wurde, war das Minimum, welches das Übertragen von Emotionen mit Satzrhythmusvariationen ermöglicht. Außerdem musste die Sprache sowohl von hoher Qualität als auch preiswert mit einem Computer zu erzeugen sein (Robotergeschöpfe haben normalerweise nur sehr knappe Ressourcen). Aus diesen Gründen wurde entschieden, als Basis einen Verkettungssprachsynthesizer zu verwenden (Dutoit T. und Leich H. (1993) "MBRPSOLA: Text-to-Speech Synthesis based on a MBE Resynthesis of the Segments Database", Speech Communication), wobei die MBROLA-Software im Internet auf der Webseite: http://tcts.fpms.ac.be/synthesis/mbrola.html, frei verfügbar ist, welche eine Verbesserung der traditionelleren PSOLA-Techniken ist (sie produziert weniger Verzerrungen, wenn die Tonhöhe manipuliert wird). Der Preis der Qualität ist, dass das Signal sehr wenig gesteuert kann, aber dieses ist mit der Forderung nach Einfachheit kompatibel.
Wegen aller dieser Restriktionen wurde bestimmt, bis hierher nur fünf Emotionszustände zu untersuchen, welche entsprechen, einem Ruhezustand und einem Zustand für jede der vier Regionen, welche durch die zwei Dimensionen Erregung und Valenz definiert sind: Zorn, Traurigkeit, Glück, Wohlbefinden.
Wie oben genannt, konzentrierten sich die vorhandenen Arbeiten auf die Erwachsenenartige, natürlich klingende Emotionssprache, und die meisten Projekte nahmen nur eine Sprache in Angriff. Viele von ihnen verwendeten die Formantsynthese als Basis (cf. Cahn, 1990 "The Generation of Affect in Synthesised Speech", Journal of the I/O Voice American Society, 8: 1–19; Murray E., Arnott J. L., (1995) "Implementation and Testing of a System for producing Emotion-By-Rule in Synthetic Speech", Speech Communication, 16 (4), pp. 369-390; Burkhardt und Sendlmeier, 2000 oben zitiert), hauptsächlich weil sie eine detaillierte und umfangreiche Steuerung des Sprachsignals ermöglicht: man kann die Sprachqualität, die Tonhöhe, die Tonintensität, die spektrale Energieverteilung, das Verhältnis der Oberwellen zum Rauschen oder die Artikulationsgenauigkeit steuern, welches das Modellieren vieler in der Emotionssprache auftretender Koartikulationseffekte ermöglicht. Die Nachteile der Formantsynthese sind, dass die Qualität der produzierten Sprache nicht zufriedenstellend bleibt (die Stimmen sind häufig noch nicht ganz natürlich). Außerdem sind die hierfür entwickelten Algorithmen kompliziert und erfordern das Steuern vieler Parameter, welches ihre Feineinstellung ziemlich unpraktisch macht (siehe Cahn, 1990, oben zur Diskussion zitiert). Anders als diese Arbeiten beschrieb (Breazal, 2000 "Sociable Maschines: Expressive Social Exchange between Humans and Robots, PhD Thesis, MIT AI Lab) einen Roboter "Kismet", welcher das Erzeugen von bedeutungsloser Emotionssprache ermöglicht. Jedoch wie bei der Arbeit von Cahn stützt sich der Roboter weitestgehend auf die Anwendung eines kommerziellen Sprachsynthesizers ab, dessen viele Parameter häufig komplexe Parameter sind (beispielsweise die Spezifikation der Tonhöhengrundlinie eines Satzes) und in einer undokumentierten Weise implementiert sind. Folglich ist diese Vorgehensweise kaum reproduzierbar, wenn man ein anderes Sprachsynthesesystem als Grundlage verwenden will. Andererseits ist der vom Anmelder verwendete und unten beschriebene Algorithmus vollständig spezifiziert, und kann direkt mit jedem möglichen PSOLA-basierten System verwendet werden (außerdem kann die aktuell verwendete Software frei heruntergeladen werden, siehe oben).
Ein anderer Nachteil der Arbeit von Breazal ist, dass der verwendete Synthesizer Formant-basiert ist, welches nicht den beabsichtigten Restriktionen entspricht.
Wegen ihrer deutlich besseren Qualität gewannen Verkettungssprachsynthesizer in den letzten Jahren an Popularität, und einige Forscher versuchten, sie zum Erzeugen von Emotionssprache zu verwenden. Dieses ist eine Herausforderung und deutlich schwieriger als mit der Formantsynthese, da nur die Tonhöhenkontur, die Tonintensitätskontur und die Dauer der Phoneme gesteuert werden können (und selbst dann gibt es enge Restriktionen bei dieser Steuerung). Nach Kenntnis des Anmelders wurden zwei Vorgehensweisen in der Literatur dargestellt. Die erste Vorgehensweise, wie beispielsweise beschrieben in (Iida et al., 2000 "A Speech Synthesis System with Emotion for assisting Communication", ISCA Workshop on Speech and Emotion), benutzt eine Sprachdatenbank für jede Emotion als Basis der vorher aufgezeichneten, in der Synthese zu verkettenden Segmente. Dieses liefert zufriedenstellende Resultate, aber ist ziemlich unpraktisch, wenn man beispielsweise die Stimme ändern oder neue Emotionen hinzufügen oder sogar den Grad von Emotionen steuern will.
Die zweite Vorgehensweise (siehe beispielsweise Edgington M. D., "Investigating the Limitations of Concatenative Speech Synthesis", Proceedings of EuroSpeech'97, Rhode, Greece) erstellt Datenbanken aus menschlich erzeugter Emotionssprache, berechnet die Tonhöhenkonturen und die Tonintensitätskonturen, und wendet sie bei den zu erzeugenden Sätzen an. Dieses verursacht einige Abgleichprobleme, welche unter Anwendung von syntaktischen Ähnlichkeiten zwischen den Sätzen teilweise gelöst werden. Jedoch zeigte Edgington, dass dieses Verfahren ziemlich unbefriedigende Resultate lieferte (indem Sprachenden unnatürlich sind, und Emotionen nicht sehr gut von den menschlichen Zuhörern erkannt werden).
Schließlich können diese zwei Verfahren bei Cartoons nicht leicht angewendet werden, da es große Schwierigkeiten gibt, Sprachdatenbanken aus übertriebenen Babystimmen oder Cartoon-Babystimmen zu bilden.
Die in der Erfindung angenommene Vorgehensweise ist – von einer Algorithmus-Perspektive aus betrachtet – vollständig generativ (sie beruht nicht auf dem Aufzeichnen von menschlicher Sprache, welche als Eingang dient), und verwendet eine Verkettungssprachsynthese als Basis. Sie erwies sich bei dem Ausdrücken von Emotionen so leistungsfähig wie die Formantsynthese, jedoch mit einfacheren Steuerungen und einer lebensechteren Signalqualität.
EIN EINFACHER UND VOLLSTÄNDIGER ALGORITHMUS
Ein durch den Anmelder entwickelter Algorithmus besteht aus dem Erzeugen eines bedeutungslosen Satzes und dem Spezifizieren der Tonhöhenkontur und der Dauer der Phoneme (der Rhythmus des Satzes). Der Einfachheit halber wird nur ein Ziel pro Phonem für die Tonhöhe spezifiziert, welches häufig ausreichend sein kann.
Es ist möglich, eine Feinsteuerung der Tonintensitätskontur vorzusehen, aber dieses ist nicht immer notwendig, da die Manipulation der Tonhöhe eine Hörillusion von Tonintensitätsvariationen verursachen kann. So können gute Resultate mit alleiniger Steuerung der Gesamtlautstärke von Sätzen erzielt werden.
Das Programm erzeugt eine Datei, wie unten in Tabelle I dargestellt, welche in den MBROLA-Sprachsynthesizer eingegeben wird.
Tabelle I: Beispiel einer durch ein Sprachsyntheseprogramm erzeugten Datei

1 448 10 150 80 158 ;; Bedeutung: Phonem "1" mit einer Dauer von 448 ms
;; bei 10 Prozent von 448 ms
;; Versuch, 150 Hz bei 80 Prozent zu erreichen
;; Versuch, 158 Hz zu erreichen
9'' 557 80 208
b 131 80 179
c 77 20 200 80 229
o 405 80 169
o 537 80 219
v 574 80 183.0
a 142 80 208.0
n 131 80 221.0
i 15 80 271.0
H 117 80 278.0
E 323 5 200 300 300 80 378.0 100 401

Die Idee des Algorithmus ist, zuerst einen aus Zufallsworten bestehenden Satz zu erzeugen, wobei jedes Wort aus Zufallssilben besteht (vom Typ CV oder CCV). Zuerst ist die Dauer aller Phoneme konstant und die Tonhöhe jedes Phonems ist konstant, gleich einem vorherbestimmten Wert (zu welchem das Rauschen addiert wird, welches vorteilhaft ist, um die Sprache natürlich klingen zu lassen. Viele unterschiedliche Rauscharten wurden getestet, und es wurde festgestellt, dass der verwendete Rauschtyp keine bedeutenden Unterschiede verursacht; für das unten beschriebene Wahrnehmungsexperiment wurde Gaußsches Rauschen verwendet). Die Tonhöhen- und Tondauerinformationen des Satzes werden dann geändert, um einen bestimmten Affekt zu erzeugen. Verzerrungen beruhen auf dem Entscheiden, dass eine Anzahl von Silben betont wird, und auf dem Anwenden einer bestimmten Betonungskontur auf diesen Silben sowie einiger Tondauermodifikationen. Auch werden an allen Silben eine bestimmte vorgegebene Tonhöhenkontur und Tondauerdeformation angewendet.
Für jedes Phonem wird nur ein Tonhöhenziel angegeben, welches bei 80 Prozent der Phonemdauer fixiert wird.
Die oben genannte Europäische Patentanmeldung, welche als Priorität für die vorliegende Anmeldung dient, zeigt in den 3 und 4 ein Programm zum Erzeugen eines mittels einer Sprachsynthese zu äußernden Satzes, welche auf dem oben genannten Algorithmus basiert. Dieses gleiche Programm wird hier in den 1a und 1b gezeigt, wobei letztere die Fortsetzung der erstgenannten Figur ist.
(Wörter in Großbuchstaben bezeichnen die Parameter des Algorithmus, welche für jede Emotion eingestellt werden müssen).
Einige Anmerkungen können hinsichtlich dieses Algorithmus gemacht werden. Zuerst ist es nützlich, Wörter zu haben, anstatt sich nur mit Zufallssequenzen von Silben zu beschäftigen, weil es ein zu häufiges Setzen von Akzenten auf angrenzende Silben vermeidet. Außerdem ermöglicht er das einfachere Ausdrücken der am letzten Wort durchgeführten Arbeitsvorgänge. Typischerweise hängt die maximale Anzahl von Wörtern in einem Satz (MAXWORDS) nicht von einem bestimmten Affekt ab, sondern ist eher ein Parameter, welcher frei verändert werden kann. Einen Schlüsselaspekt dieses Algorithmus bilden die stochastischen Teile: einerseits ermöglichen sie jedes Mal das Erzeugen einer anderen Äußerung für einen gegebenen Parametersatz (hauptsächlich aufgrund der Zufallswortanzahl, der Zufallsbestandteile von Silbenphonemen oder der probabilistischen Akzentzuordnung); andererseits sind Details wie das Hinzufügen von Rauschen zu der Tondauer und der Tonhöhe von Phonemen (siehe Zeile 14 und 15 des in 1 gezeigten Programms, bei welchem Zufall(n) "Zufallszahl zwischen 0 und n" bedeutet) vorteilhaft für die Natürlichkeit der Vokalisierungen (wenn sie unveränderlich bleibt, dann nimmt man deutlich wahr, dass dieses eine sprechende Maschine ist). Schließlich werden Akzente implementiert, indem man nur die Tonhöhe und nicht die Lautstärke ändert. Dennoch erhält man zufriedenstellende Resultate, da in der menschlichen Sprache eine Lautstärkenzunahme mit einer Tonhöhenzunahme korreliert ist. Dieses erfordert manchmal ein Übertreiben der Tonhöhenmodulation, aber dieses ist in Ordnung, da, wie früher erklärt, es nicht immer ein Ziel ist, die Art und Weise, wie Menschen Emotionen ausdrücken originalgetreu zu reproduzieren, sondern eine lebhafte und natürliche Karikatur der Art und Weise, wie sie Emotionen ausdrücken, zu produzieren (Cartoon-artig).
Schließlich wird dem Algorithmus ein letzter Schritt hinzugefügt, um eine Stimme zu erhalten, welche für ein junges Geschöpf typisch ist: die Sounddateiabtastrate wird übersteuert, indem man sie auf 30000 Hz oder 35000 Hz, verglichen mit den durch MBROLA produzierten 16000 Hz, einstellt (dieses ist einem schnelleren Abspielen der Datei gleichwertig). Selbstverständlich wird sie zunächst in dem zu MBROLA gesandten Programm verzögert, um den Sprachrate normal zu halten. Nur die Qualität und Tonhöhe der Sprache werden modifiziert. Dieser letzte Schritt ist vorzuziehen, da keine Kindersprachdatenbank für MBROLA existiert (welches verständlich ist, da die Herstellung der Datenbank mit einem Kind schwierig ist). Folglich wurde eine weibliche Erwachsenenstimme gewählt.
Nach der ausführlichen Beschreibung des Algorithmus beinhaltet die nachfolgende Tabelle II beispielhafte Parameterwerte, welche für folgende fünf Affekte erhalten werden: Ruhe, Zorn, Traurigkeit, Glück, Wohlbefinden.
Diese Parameter wurden erhalten, indem man zuerst Studien mit einer Beschreibung der akustischen Korrelate jeder Emotion betrachtete (beispielsweise Murray und Arnott 1993, Sendlmeier und Burkhardt 2000, oben zitiert), dann kohärente Anfangswerte für die Parameter ableitete, und sie von Hand und durch Ausprobieren solange modifizierte, bis sie ein zufriedenstellendes Resultat ergaben. Eine Bewertung der Qualität wird im folgenden Abschnitt vorgenommen.
Tabelle II: Parameterwerte für verschiedene Emotionen
VALIDIERUNG MIT TESTPERSONEN
Um den in den oben genannten Abschnitten beschriebenen Algorithmus zu bewerten, wurde ein Experiment durchgeführt, in welchem Testpersonen gebeten wurden, die wahrgenommene Emotion beim Hören einer durch das System erzeugten Vokalisierung zu beschreiben. Einige Soundbeispiele sind auf der zugehörigen Webseite "www.csl.sony.fr/py/" vorhanden. Genauer ausgedrückt, hörte jede Testperson zuerst 10 Vokalisierungsbeispiele, wobei bei jedem Beispiel die Emotion mit einer Zufallsauswahl bestimmt wurde, so dass sie sich an die Systemsprache gewöhnten. Dann wurde ihnen eine Sequenz aus 30 Vokalisierungen (unüberwachte Folge) präsentiert, welche jedes Mal einer mit einer Zufallauswahl bestimmten Emotion entsprach, und wurden sie gebeten, eine Wahl zwischen "Ruhe", "Zorn", "Traurigkeit", "Wohlbefinden" und "Glück" zu treffen.
Sie konnten jedes Beispiel nur einmal hören. In einem zweiten Experiment mit unterschiedlichen Testpersonen wurden den Testpersonen zunächst vier überwachte Beispiele von jeder Emotion gegeben, welches bedeutete, dass Ihnen eine Vokalisierung zusammen mit einem Label der beabsichtigten Emotion präsentiert wurde. Wieder wurden ihnen 30 Vokalisierungen präsentiert, welche sie mit einem der oben genannten Worte beschreiben mussten. Acht aufrichtige erwachsene Testpersonen nahmen an jedem Experiment teil: drei französische Testpersonen, eine englische Testperson, eine deutsche Testperson, eine brasilianische Testperson und zwei japanische Testpersonen (keine von ihnen war mit der Forschung vertraut oder hatte ein spezielles Wissen über die akustischen Korrelate der Emotion in der Sprache). Die Tabelle III zeigt unten die Resultate für das Experiment mit der unüberwachten Folge. Die Zahl in (ZeileEm, SpalteEm) zeigt den Prozentsatz von Zeiten an, bei welchen eine Vokalisierung, welche die ZeileEm-Emotion repräsentieren sollte, als SpalteEm-Emotion wahrgenommen wurde. Beispielsweise kann in der Tabelle III beobachtet werden, dass 76 Prozent der Vokalisierungen, welche die Traurigkeit repräsentieren sollten, effektiv als solche wahrgenommen wurden.
Die Resultate des Experiments mit der unüberwachten Folge müssen mit den Experimenten verglichen werden, welche mit menschlicher Sprache anstatt mit Maschinensprache durchgeführt wurden. Diese zeigen, dass bei ähnlichen Einstellungen, wie in (Tickle A. 2000 "English and Japanese Speaker's Emotion Vocalisations and Recognition: a Comparison highlighting Vowel Quality", ISCA Workshop on Speech and Emotion Recognition, Belfast 2000), bei welchen Menschen gebeten wurden, eine unsinnige Emotionssprache zu erzeugen, Menschen bestenfalls 60 Prozent Erfolg haben und am häufigsten weniger. Hier wird beobachtet, dass das Durchschnittsresultat 57 Prozent beträgt, welches gut mit der menschlichen Leistung vergleichbar ist. Bei näherer Betrachtung der Resultate kann gesehen werden, dass die Fehler meistens keine "schlimmen" Fehler sind, besonders hinsichtlich des Erregungsgrades in der Sprache: Glück wird am häufigsten mit Zorn (beide mit Erregung) verwechselt, und Ruhe wird am häufigsten mit Traurigkeit und Wohlbefinden (alle ohne Erregung) verwechselt. Tatsächlich werden weniger als 5 Prozent Fehler bei dem Erregungsgrad gemacht. Schließlich kann beobachtet werden, dass viele Fehler den ruhigen oder neutralen Affekt betreffen. Dieses führte zu einem zweiten Experiment mit einer unüberwachten Folge, welches dem hier dargestellten Experiment ähnlich ist, mit der Ausnahme, dass der ruhige Affekt entfernt wurde.
Es wurde ein Durchschnittserfolg von 75 Prozent erreicht, welches eine große Steigerung darstellt und viel besser als die menschliche Leistung ist. Dieses kann zum Teil durch die Tatsache erklärt werden, dass hier die akustischen Korrelate der Emotionen übertrieben sind. Die hier dargestellten Resultate sind denen ähnlich, welche beschrieben werden in (Breazal 2000), welches beweist, dass das Verwenden eines Verkettungssynthesizers mit viel wenigeren Parametern noch ermöglicht, Emotionen zu übertragen (und liefert im allgemeinen lebensechtere Soundarten).
Tabelle III: Verwechslungsmatrix für eine unüberwachte Folge
Eine Prüfung der überwachten Folge zeigt, dass sich bei Präsentation von nur sehr wenigen Vokalisierungen für ihre beabsichtigte Emotion (genau vier Vokalisierungen für jede Emotion) die Resultate stark erhöhen: jetzt wird ein Erfolg mit 77 Prozent erzielt. Wieder sind die wenigen Fehler nicht "schlimm". Auf ähnliche Weise wurde ein Experiment mit Entfernung des ruhigen Affektes durchgeführt, welches einen Durchschnittserfolg von 89 Prozent ergab. Diese Überwachung kann bei digitalen Haustieren ziemlich leicht implementiert werden, da viele von ihnen beispielsweise Kombinationen von Farbleuchtdioden verwenden, um ihre "Emotionen" auszudrücken, und das aktuelle Experiment zeigt, dass es ausreichend ist, den Roboter einige Male visuell wahrzunehmen, während er emotionale Sätze äußert, um später seine beabsichtigte Emotion erkennen zu können, nur indem man ihm zuhört.
Tabelle IV: Verwechslungsmatrix für die überwachte Folge
Die 2 zeigt, wie diese Emotionen in einem Diagramm positioniert sind, welches einen "Emotionsraum" darstellt, in welchem die Parameter "Valenz" und "Erregung" jeweils entlang vertikalen und horizontalen Achsen 2 und 4 ausgedrückt sind. Die Valenzachse reicht von negativen bis zu positiven Werten, während die Erregungsachse von niedrigen bis zu hohen Werten reicht. Der Kreuzungspunkt 0 dieser Achsen befindet sich in der Mitte des Diagramms und entspricht einem ruhigen oder neutralen Zustand. Von diesem Punkt aus werden vier Quadranten definiert, wobei jeder einen Emotionszustand wie folgt enthält: Glück/Preisen (Quadrant Q1), gekennzeichnet durch positive Valenz und hohe Erregung, Wohlbefinden/Beruhigen (Quadrant Q2), gekennzeichnet durch positive Valenz und niedrige Erregung, Traurigkeit (Quadrant Q3), gekennzeichnet durch negative Valenz und niedrige Erregung, und Zorn/Verwarnen (Quadrant Q4), gekennzeichnet durch negative Valenz und hohe Erregung.
BEVORZUGTE AUSFÜHRUNGSFORMEN DER VORLIEGENDEN ERFINDUNG
Das Verfahren und die Vorrichtung gemäß der Erfindung sind eine Entwicklung der oben genannten Konzepte. Die Idee beruht auf der Steuerung zumindest eines von Tonhöhenkontur, Tonintensitätskontur und Rhythmus einer durch Sprachsynthese erzeugten Phrase. Die erfinderische Vorgehensweise ist verhältnismäßig vollständig und kann von anderen Arbeitern leicht reproduziert werden. Insbesondere werden die bevorzugten Ausführungsformen aus frei verfügbaren Softwaremodulen entwickelt, welche gut dokumentiert sind, einfach anzuwenden sind, und für welche es viele gleichwertige Technologien gibt. Dementsprechend sind die durch diese Ausführungsformen der Erfindung erzeugten Module total transparent.
Die Ausführungsformen ermöglichen eine vollständige Steuerung, oder zumindest einen hohen Steuerungsgrad der Tonhöhenkontur, des Rhythmus (Dauer von Phonemen), etc..
Konzeptionell ist die Vorgehensweise allgemeiner als in der früheren Europäischen Patentanmeldung des Anmelders, zu welcher Priorität beansprucht wird.
Die Vorgehensweise gemäß der vorliegenden Erfindung basiert auf dem Betrachten einer Phrase als eine Folge von Silben. Die Phrase kann ein Sprachausdruck in einer anerkannten Sprache sein, oder kann einfach aus bedeutungslosen Äußerungen bestehen. Für jede Silbe ist es möglich, die Kontur der Tonhöhe (f0) vollständig zu steuern, optional die Tonintensitätskontur (Volumen), und die Dauer der Silbe. Jedoch ist zumindest die Steuerung der Tonintensität nicht notwendig, da eine Modifikation bei der Tonhöhe den Eindruck einer Modifikation bei der Tonintensität vermitteln kann.
Das Problem besteht dann darin, diese Konturen – Tonhöhenkontur, Dauer und vielleicht Tonintensitätskontur – während eines ganzen Satzes zu bestimmen, um eine Intonation zu erzeugen, welche einer gegebenen Emotion entspricht.
Das der Lösung zugrunde liegende Konzept ist, ausgehend von einer Phrase mit einer bestimmten Kontur (ID), einer bestimmten Intensität und einer bestimmten Dauer für jede Silbe zu starten. Diese Bezugsphrase kann entweder von einem Sprachsynthesizer für eine anerkannte Sprache erzeugt werden, welcher eine Ausgangskontur (f0), eine Ausgangsdauer (t) und vielleicht eine Ausgangsintensität verleiht. Oder kann alternativ dazu aus bedeutungslosen Äußerungen bestehen, wie beispielsweise aus Geplapper von Kleinkindern. In diesem Fall wird zunächst zugeordnet, eine "flache" Tonhöhenkontur (f0) mit einem bestimmten Ausgangswert, eine "flache" Tonintensitätskontur mit einem bestimmten Ausgangswert, und eine "feste" Dauer (t) mit einem bestimmten Ausgangswert. Diese Charakteristiken werden in einem spezifischen Format dargelegt, welches von einem Sprachsynthesizer gelesen werden kann.
Die zu einem Sprachsynthesizer gelieferten Daten werden gemäß einem bestimmten Protokoll formatiert. Beispielsweise kann jede zu synthetisierende Silbe wie folgt kodiert werden (im Fall der Silbe "be", gekennzeichnet durch eine Dauer und fünf aufeinander folgende Tonhöhenwerte innerhalb dieser Dauer):
Kennzeichnung der Silbe: "be"; Dauer (Millisekunden) t1 = 100; Tonhöhendaten (Hz) – erster Teil P1 = 80, zweiter Teil P2 = 100, dritter Teil P3 = 120, vierter Teil P4 = 90, fünfter Teil P5 = 230.
Die oben genannten Daten werden einfach in einen Rahmen aufgenommen, indem man die Parameter kodiert: be; 100, 80, 100, 120, 90, 230, wobei jeder Parameter durch den Synthesizer entsprechend dem Protokoll gekennzeichnet ist.
Die 3 zeigt die unterschiedlichen Stufen, in welchen diese digitalen Daten in einen synthetisierten Soundausgang umgesetzt werden.
Zunächst wird eine Sprachnachricht in Form einer Folge aus zu äußernden Silben komponiert. Die Nachricht kann aus verständlichen Wörter bestehen, welche grammatikalische Sätze bilden, welche eine Bedeutung in einer gegebenen anerkannten Sprache übertragen, oder kann aus bedeutungslosen Soundarten bestehen, wie beispielsweise aus Geplapper, aus tierartigen Soundarten, oder aus total frei erfundenen Soundarten. Die Silben werden im oben beschriebenen digitalen Datenformat in einer Vokalisierungsdatei 10 kodiert.
Ein Decoder 12 liest die aufeinander folgenden Silbendaten von der Datei 10 aus.
Die 4a zeigt graphisch, wie diese Daten durch den Dekoder 12 in einem Koordinatenrasterfeld mit der Tonhöhengrundfrequenz (in Hertz) entlang der Ordinate und der Zeit (in Millisekunden) entlang der Abszisse angeordnet werden. Der Bereich des Rasterfeldes wird in fünf Spalten geteilt, entsprechend jeder der fünf jeweiligen Dauern, wie durch Pfeillinien angezeigt. In die Mitte jeder Spalte wird der Tonhöhenwert positioniert, wie durch die entsprechenden Tonhöhendaten gegenüber der Skala auf der Ordinate definiert.
Die Silbendaten werden zu einem Interpolator 14 übertragen, welcher aus den fünf elementaren Tonhöhenwerten P1–P5 eine geschlossene Folge aus interpolierten Tonhöhenwerten mit Standardinterpolationstechniken erzeugt. Das Resultat ist eine verhältnismäßig glatte Kurve der Entwicklung der Tonhöhe über der Dauer von 100 ms der Silbe "be", wie in 4b dargestellt. Der Prozess wird für alle eingegebenen Silbendaten wiederholt, um eine kontinuierliche Tonhöhenkurve über aufeinander folgenden Silben der Phrase zu erzeugen.
Die folglich durch den Interpolator erzeugte Tonhöhenwellenform wird geliefert an einen Audiofrequenzsoundprozessor 16, welcher ein entsprechendes moduliertes Amplitudenaudiosignal erzeugt. Der Soundprozessor kann dem finalen Audiosignal auch ein Zufallsrauschen hinzufügen, um dem synthetisierten Sound einen realistischeren Effekt zu verleihen, wie oben erklärt. Dieses finale Audiosignal wird an einen Audioverstärker 18 geliefert, bei welchem sein Niveau auf eine geeignete Lautstärke angehoben wird, und dann von einem Lautsprecher 20 ausgegeben wird, welcher auf diese Weise die synthetisierten Sounddaten der Vokalisierungsdatei 10 reproduziert.
Wenn die Vokalisierungsdatei 10 verständliche Phrasen enthält, umfasst ein Teil der mit den Silben verbundenen Silbendaten normalerweise eine Anzeige, aufgrund welcher Silben akzentuiert werden können, um eine natürlichere Soundübertragung zu ermöglichen.
In einem Normalfall entsprechen die in den Silbendaten enthaltenen Tonhöhenwerte einer "neutralen" Sprachform, das heißt, sie sind nicht mit einer wahrnehmbaren Emotion aufgeladen.
Die 5 ist ein Blockdiagramm, welches in Funktionsbezeichnungen zeigt, wie ein Emotionsgenerator 22 der bevorzugten Ausführungsform den in 3 dargestellten Synthesizer 1 integriert.
Der Emotionsgenerator 22 funktioniert, indem er selektiv die Operatoren bei von Vokalisierungsdatei 10 ausgelesenen Silbendaten anwendet. Abhängig von ihrem Typ können diese Operatoren entweder die Tonhöhendaten (Tonhöhenoperator) oder die Silbendauerdaten (Daueroperator) modifizieren. Diese Modifikationen finden stromaufwärts von dem Interpolator 14, beispielsweise vor dem Dekoder 12 statt, so dass die Interpolation an den von dem Operator modifizierten Werten durchgeführt wird. Wie unten erklärt, besteht die Modifikation darin, dass eine neutrale Sprachform selektiv in eine Sprache transformiert wird, welche eine gewählte Emotion (Traurigkeit, Ruhe, Glück, Zorn) in einer gewählten Quantität überträgt.
Die elementaren Operatorformen werden in einer Operatorsatzbibliothek 24 gespeichert, in welcher auf sie durch eine Operatorsatzkonfigurationseinheit 26 selektiv zugegriffen werden kann. Letztere dient dazu, die Operatoren entsprechend aktuellen Anforderungen vorzubereiten und zu parametrisieren. Zu diesem Zweck wird eine Operatorparametrisiereinheit 28 geschaffen, welche die Parametrisierung der Operatoren entsprechend folgender Forderungen bestimmt: i) der Stimme zu verleihende Emotion (Ruhe, Traurigkeit, Glück, Zorn, etc.), ii) möglicherweise Grad – oder Intensität – der anzuwendenden Emotion, und iii) Silbenkontext, wie nachfolgend erklärt wird. Die Emotion und der Emotionsgrad werden der Operatorparametrisiereinheit 28 durch eine Emotionsselektionsschnittstelle 30 angewiesen, welche für einen Nutzer 32 zugängliche Eingänge bildet. Die Emotionsselektionsschnittstelle kann in Form einer Computerschnittstelle mit On Screen-Menüs und Icons ausgebildet sein, und dem Benutzer 32 erlauben, alle notwendigen Emotionscharakteristiken und andere Betriebsparameter anzuzeigen.
Im Beispiel ist der operatorsensitive Silbenkontext: i) die Position der Silbe in einer Phrase, da einige Operatorsätze nur bei ersten und letzten Silben der Phrase angewendet werden, ii) ob sich die Silben auf verständliche Wortsätze oder auf unverständliche Soundarten (Geplapper, etc.) beziehen, und iii) sofern der Fall auftritt, ob oder ob nicht einer betrachteten Silbe erlaubt wird, akzentuiert zu werden, wie in der Vokalisierungsdatei 10 angezeigt ist.
Zu diesem Zweck wird eine Identifizierungseinheit 34 für erste und letzte Silben und eine Erfassungseinheit 36 für eine autorisierte Silbenakzentuierung geschaffen, wobei beide einen Zugang zur Vokalisierungsdateieinheit 10 besitzen und die Operatorparametrisiereinheit 28 über passende kontextsensitive Parameter informieren.
Wie unten genau geschildert, gibt es Operatorsätze, welche spezifisch bei Silben anwendbar sind, welche akzentuiert werden sollen ("akzentuierbare" Silben). Diese Operatoren werden nicht systematisch an allen akzentuierbaren Silben angewendet, sondern nur an denen, welche durch eine Zufallsauswahl unter Kandidatensilben ausgewählt werden. Die Kandidatensilben sind von den Vokalisierungsdaten abhängig. Wenn letztere Anzeichen enthalten, nach denen Silben akzentuiert werden dürfen, dann werden die Kandidatensilben nur aus diesen akzentuierbaren Silben ausgewählt.
Dieses wird normalerweise bei verständlichen Texten der Fall sein, bei welchen einige Silben nicht akzentuiert werden dürfen, um eine natürlich klingende Übertragung sicherzustellen. Wenn die Vokalisierungsbibliothek keine solchen Anzeichen enthält, dann sind alle Silben Kandidaten für die Zufallsauswahl. Dieses ist normalerweise bei unverständlichen Soundarten der Fall.
Die Zufallsauswahl wird durch eine Zufallsauswahleinheit 38 für eine steuerbare Wahrscheinlichkeit, wirksam angeschlossen zwischen der Erfassungseinheit 36 für eine autorisierte Silbenakzentuierung und der Operatorparametrisiereinheit 28 ermöglicht. Die Zufallsauswahleinheit 38 umfasst einen Wahrscheinlichkeitssteuergrad zum Auswählen einer Silbe aus Kandidaten. Besonders, wenn N die Wahrscheinlichkeit mit einem Steuerbereich von 0 bis 1 eines ausgewählten Kandidaten ist, dann sind bei P Kandidatensilben im Durchschnitt N × P Silben zum Unterwerfen unter einen spezifischen Operatorssatz, verbunden mit einer Zufallsakzentuierung, auszuwählen. Die Verteilung der nach dem Zufallsprinzip ausgewählten Kandidaten über der Silbensequenz ist im Wesentlichen gleichmäßig.
Die passend konfigurierten Operatorsätze von der Operatorsatzkonfigurationseinheit 26 werden zu einer Silbendatenmodifiziereinheit 40 gesendet, bei welcher sie die Silbendaten bearbeiten. Zu diesem Zweck empfängt die Silbendatenmodifiziereinheit 40 die Silbendaten direkt von der Vokalisierungsdatei 10, analog dem Dekoder 12 von 3. Die so empfangenen Silbendaten werden durch die Einheit 40 als Funktion des Operatorsatzes modifiziert, besonders mit Bezug auf die Daten der Tonhöhe und der Tondauer. Die resultierenden modifizierten Silbendaten (neue Silbendaten) werden dann durch die Silbendatenmodifiziereinheit 40 zum Dekoder 12 ausgegeben, mit der gleichen Struktur, wie dargestellt in der Vokalisierungsdatei (vergleiche 2a). Auf diese Weise kann der Dekoder die neuen Silbendaten genau verarbeiten, als ob sie direkt von der Vokalisierungsdatei stammen. Von dort aus werden die neuen Silbendaten interpoliert (Interpolatoreinheit 14) und durch die anderen stromabwärts gelegenen Einheiten von 3 genau in der gleichen Weise verarbeitet. Jedoch entspricht der am Lautsprecher erzeugte Sound dann nicht mehr einem neutralen Ton, sondern eher einem Sound mit einer Emotionssimulation, wie vom Nutzer 32 definiert.
Alle oben genannten Funktionseinheiten arbeiten unter der Gesamtsteuerung einer Operationssequenzereinheit 42, welche die komplette Durchführung des Emotionserzeugungsverfahrens in Übereinstimmung mit einem vorgeschriebenen Regelwerk steuert.
Die 6 veranschaulicht graphisch den Effekt des Tonhöhenoperatorsatzes OP auf einer Tonhöhenkurve (wie in 4b) eines synthetisierten Sounds. Für jeden Operator zeigt die Figur – jeweils auf linken und rechten Spalten – eine Tonhöhenkurve (Grundfrequenz f gegen die Zeit t) vor der Tätigkeit des Tonhöhenoperators und nach der Tätigkeit des Tonhöhenoperators. Im Beispiel sind die Eingangstonhöhenkurven für alle Operatoren identisch und sind zufällig verhältnismäßig flach.
Es gibt im dargestellten Satz vier Operatoren, und zwar folgende (in der Figur von oben nach unten):

– einen Tonhöhenoperator OPrs für eine "Steigung", welcher jeder Eingangstonhöhenkurve eine Steigung über der Zeit verleiht, das heißt, er bewirkt, dass die ursprüngliche Tonhöhenkontur bezüglich der Frequenz über der Zeit steigt;
– einen Tonhöhenoperator OPfs für ein "Gefälle", welcher jeder Eingangstonhöhenkurve ein Gefälle über der Zeit verleiht, das heißt, er bewirkt, dass die ursprüngliche Tonhöhenkontur bezüglich der Frequenz über der Zeit fällt;
– einen Tonhöhenoperator OPsu für eine "Aufwärtsverschiebung", welcher jeder Eingangstonhöhenkurve eine gleichmäßige Aufwärtsverschiebung bezüglich der Grundfrequenz verleiht, wobei die Verschiebung für alle Punkte über der Zeit die gleiche ist, so dass die Tonhöhenkontur einfach die Grundfrequenzachse hochgeschoben wird; und
– einen Tonhöhenoperator OPsd für eine "Abwärtsverschiebung", welcher jeder Eingangstonhöhenkurve eine gleichmäßige Abwärtsverschiebung bezüglich der Grundfrequenz verleiht, wobei die Verschiebung für alle Punkte über der Zeit die gleiche ist, so dass die Tonhöhenkontur einfach die Grundfrequenzachse hinuntergeschoben wird.

In der Ausführungsform haben die Operatoren OPrs und OPfs für eine Steigung und für ein Gefälle die folgende Eigenschaft: die Tonhöhe am Mittenpunkt bezüglich der Zeit (1/2t1 für eine Tonhöhendauer von t1) bleibt nach dem Operator im Wesentlichen unverändert. Mit anderen Worten, die Operatoren agieren, um die Eingangstonhöhenkurve über den Tonhöhenwert am Mittenpunkt bezüglich der Zeit zu schwenken, um die erforderliche Neigung zu verleihen. Dies bedeutet, dass im Falle des Operators OPrs für eine Steigung, die Tonhöhenwerte vor dem Mittenpunkt bezüglich der Zeit tatsächlich gesenkt werden, und dass im Falle des Operators OPfs für ein Gefälle, die Tonhöhenwerte vor dem Mittenpunkt bezüglich der Zeit tatsächlich angehoben werden, wie durch die Figur gezeigt wird.
Optional können auch mit OI gekennzeichnete Intensitätsoperatoren bereitgestellt werden. Die Effekte dieser Operatoren sind in 7 dargestellt, welche der Abbildung von 6 direkt analog ist. Diese Operatoren sind auch vier bezüglich der Anzahl und sind zu denen der Tonhöhenoperatoren OP identisch, außer dass sie auf die Kurve der Intensität I über der Zeit t einwirken. Folglich werden diese Operatoren um der Prägnanz willen nicht separat genau geschildert.
Jeder der Tonhöhen- und Intensitätsoperatoren kann wie folgt parametrisiert werden:

– für die Steigungs- und Gefälleoperatoren (OPrs, OPfs, OIrs, OIfs): der zu verleihende Neigungsgradient auf die Eingangskontur. Die Neigung kann in Form von normalisierten Neigungswerten ausgedrückt werden. Beispielsweise entspricht 0 keiner verliehenen Neigung: der Operator hat in diesem Fall keinen Effekt auf den Eingang (auf einen solchen Operator wird als ein neutralisierter oder neutraler Operator Bezug genommen). Das andere Extrem bedeutet, ein Maximalwert max bewirkt, dass die Eingangskurve einen infiniten Gradient besitzt, das heißt, dass sie im Wesentlichen vertikal steigt oder fällt. Zwischen diesen Extremen kann jeder beliebige Parameterwert dem fraglichen Operator zugeordnet werden, um die erforderliche Neigung der Eingangskontur zu verleihen;
– für die Verschiebungsoperatoren (OPsu, OPsd, OIsu, OIsd): der der Eingangskontur verliehene Betrag an Aufwärtsverschiebung oder Abwärtsverschiebung, in Form von Absolutwerten für die Grundfrequenz (für die Tonhöhe) oder für die Intensität. Die entsprechenden Parameter können folglich in Form einer Inkrementeinheit oder einer Dekrementeinheit entlang der Tonhöhenachse oder der Intensitätsachse ausgedrückt werden.

Die 8 veranschaulicht graphisch den Effekt eines Dauer- (oder Zeit-)Operators OD auf eine Silbe. Die Abbildung zeigt auf linken und rechten Spalten jeweils die Dauer der Silbe (in Form einer horizontalen Linie, welche eine Anfangslänge der Zeit t1 ausdrückt) der Eingangssilbe vor dem Effekt eines Daueroperators und nach dem Effekt eines Daueroperators.
Der Daueroperator kann sein:

– ein Dilatationsoperator, welcher bewirkt, dass die Dauer der Silbe zunimmt. Die Zunahme wird in Form eines Parameters D ausgedrückt, gekennzeichnet als ein positiver Parameter D. Beispielsweise kann D einfach eine Anzahl von Millisekunden einer Dauer sein, dem Anfangseingangsdauerwert hinzuzufügen, wenn letzterer auch in Millisekunden ausgedrückt wird, so dass die Operatoraktion einfach erhalten wird, indem man den Wert D der Dauerspezifikation t1 für die fragliche Silbe hinzufügt. Im Ergebnis bewirkt die Verarbeitung der Daten durch den Interpolator 14 und durch nachfolgende Einheiten, dass die Periode, während der die Silbe ausgesprochen wird, ausgedehnt wird;
– ein Kontraktionsoperator, welcher bewirkt, dass die Dauer der Silbe abnimmt. Die Abnahme wird in Form des gleichen Parameters D ausgedrückt, und ist in diesem Fall ein negativer Parameter. Beispielsweise kann D einfach eine Anzahl von Millisekunden einer Dauer sein, vom Anfangseingangsdauerwert zu subtrahieren, wenn letzterer auch in Millisekunden ausgedrückt wird, so dass die Operatoraktion einfach erhalten wird, indem man den Wert D von der Dauerspezifikation für die fragliche Silbe subtrahiert. Im Ergebnis bewirkt die Verarbeitung der Daten durch den Interpolator 14 und durch nachfolgende Einheiten, dass sich die Periode, während der die Silbe ausgesprochen wird, zusammenzieht (verkürzt).

Der Operator kann auch neutralisiert werden, oder als ein neutraler Operator ausgebildet werden, einfach, indem man den Wert 0 für den Parameter D einsetzt.
Es ist zur Kenntnis zu nehmen, dass, während der Daueroperator dargestellt wurde, aus zwei unterschiedlichen Typen zu bestehen, entsprechend der Dilatation und der Kontraktion, es klar ist, dass der einzige Unterschied im Zeichen plus oder minus liegt, welches vor dem Parameter D gesetzt ist. Folglich kann eine gleiche Operatoreinheit beide Operatorfunktionen erzeugen (Dilatation und Kontraktion), wenn sie sowohl positive als auch negative Zahlen verarbeiten kann.
Der Bereich der möglichen Werte für den Parameter D und seine möglichen inkrementellen Werte in dem Bereich können entsprechend den Anforderungen gewählt werden.
Im Folgenden wird die Parametrisierung von jedem der Operatoren, OP, OI und OD durch einen variablen Wert ausgedrückt, welcher durch die letzten Buchstaben des spezifischen Operators plus das spezifische Suffix für jeden Operator gekennzeichnet ist, das heißt: Prs = Wert des positiven Neigungsparameters für den Steigungs-Tonhöhenoperator OPrs; Pfs = Wert des negativen Neigungsparameters für den Gefälle-Tonhöhenoperator OPfs; Psu = Wert des Aufwärtsverschiebungsbetrages für den Aufwärtsverschiebungs-Tonhöhenoperator OPsu; Psd = Wert des Abwärtsverschiebungs-Tonhöhenoperators OPsd; Dd = Wert des Zeitinkrements für den Dauer-Dilatationsoperator ODd; Dc = Wert des Zeitdekrements (Kontraktion) für den Dauer-Kontraktionsoperator ODc.
Die Ausführungsform wendet weiter einen separaten Operator an, welcher die Wahrscheinlichkeit N für die Zufallsauswahleinheit 38 ermittelt. Dieser Wert wird aus einem Bereich von 0 (keine Selektion möglich) bis 1 (sichere Selektion) ausgewählt. Der Wert N dient dazu, die Dichte der akzentuierten Silben in dem vokalisierten Ausgang zu steuern, soweit für die zu reproduzierende emotionale Qualität erforderlich.
Die 9A und 9B bilden ein Flussdiagramm, welches den Prozess des Bildens und selektiven Anwendens der oben genannten Operatoren bei den Silbendaten auf Basis des mit Bezug auf die 5 beschriebenen Systems anzeigt. Die 9B ist eine Fortsetzung der 9A.
Der Prozess beginnt mit einer Initialisierungsphase P1, welche das Laden von Eingangssilbendaten aus der Vokalisierungsdatei 10 (Schritt S2) umfasst. Die Daten erscheinen als eine Kennzeichnung der Silbe, beispielsweise "be", gefolgt von einem ersten Wert t1, welcher die normale Dauer der Silbe ausdrückt, gefolgt von fünf Werten P1 bis P5, welche die Grundfrequenz der Tonhöhe bei fünf aufeinanderfolgenden Intervallen der angezeigten Dauer t1 anzeigen, wie mit Bezug auf die 4a erklärt.
Als nächstes wird unter Anwendung der Schnittstelleneinheit 30 (Schritt S4) die auf der Phrase oder Passage zu übertragende Emotion geladen, von welcher die geladenen Silbendaten einen Teil bilden. Die Emotionen können sein: Ruhe, Traurigkeit, Glück, Zorn, etc.. Die Schnittstelle gibt auch den Grad der zu vermittelnden Emotion ein, beispielsweise indem ein Gewichtungswert zugeordnet wird (Schritt S6).
Das System gelangt dann in eine Universaloperatorphase P2, in welcher ein Universaloperatorsatz OS(U) systematisch bei allen Silben angewendet wird. Der Universaloperatorsatz OS(U) enthält alle Operatoren der 6 und 8, das heißt OPrs, OPfs, OPsu, OPsd, welche die vier Tonhöhenoperatoren bilden, plus ODd und ODc, welche die zwei Daueroperatoren bilden. Jeder dieser Operatoren des Operatorsatzes OS(U) wird mit einem entsprechenden zugeordneten Wert parametrisiert, jeweils Prs(U), Pfs(U), Psu(U), Psd(U), Dd(U) und Dc(U), wie oben erklärt (Schritt S8). Dieser Schritt umfasst, das Zuordnen von numerischen Werten zu diesen Parametern, und wird durch die Operatorsatzkonfigurationseinheit 26 ausgeführt. Die Wahl der Parameterwerte für den Universaloperatorsatz OS(U) wird durch die Operatorparametrisiereinheit 8 als eine Funktion der programmierten Emotion und Quantität der Emotion, plus fallweise als eine Funktion anderer Faktoren bestimmt.
Der Universaloperatorsatz OS(U) wird dann systematisch bei allen Silben einer Phrase oder einer Phrasengruppe (Schritt S10) angewendet. Die Aktion umfasst das Modifizieren der numerischen Werte t1, P1–P5 der Silbendaten. Für die Tonhöhenoperatoren werden die Neigungsparameter Prs oder Pfs in eine Gruppe von fünf Differenzwerten übersetzt, welche arithmetisch jeweils bei den Werten P1–P5 angewendet werden. Diese Differenzwerte werden gewählt, um jeden der Werte P1–P5 entsprechend der parametrisierten Neigung zu verschieben, wobei der mittlere Wert P3 im wesentlichen unverändert bleibt, wie früher erklärt. Beispielsweise sind die ersten zwei Werte der Steigungsparameter negativ, um zu bewirken, dass die erste Hälfte der Tonhöhe gesenkt wird, und sind die letzten zwei Werte sind positiv, um zu bewirken, dass die letzte Hälfte der Tonhöhe angehoben wird, so wird die Steigung gebildet, welche am Mittenpunkt bezüglich der Zeit geschwenkt ist, wie dargestellt in 6. Der Grad der Neigung, welche die Parametrisierung bildet, wird in Form von diesen Differenzwerten ausgedrückt. Eine ähnliche Vorgehensweise in umgekehrter Weise wird für den Gefälleparameter angewendet.
Die Aufwärtsverschiebungs- oder die Abwärtsverschiebungsoperatoren können vor oder nach den Neigungsoperatoren angewendet werden. Sie addieren oder subtrahieren einfach einen gleichen, durch die Parametrisierung bestimmten Wert zu oder von den fünf Tonhöhenwerten P1–P5. Die Operatoren bilden gegenseitig Exklusivpaare, das heißt, ein Steigungsoperator wird nicht angewendet, wenn ein Gefälleoperator angewendet wird, und gleiches gilt für die Aufwärtsverschiebungs-, Abwärtsverschiebungs- und die Daueroperatoren.
Die Anwendung der Operatoren (das heißt, die Berechnung zur Modifikation der Daten der Parameter t1, P1–P5) wird durch die Silbendatenmodifiziereinheit 40 ausgeführt.
Sobald die Silben folglich durch den Universaloperatorsatz OS(U) verarbeitet wurden, werden sie vorläufig für eine eventuell notwendige Weiterverarbeitung zwischengespeichert.
Das System gelangt dann in eine probabilistische Akzentuierungsphase P3, für welche ein anderer Operatorakzentuierungsparametersatz OS(PA) vorbereitet ist. Dieser Operatorsatz hat die gleichen Operatoren wie der Universaloperatorsatz, aber mit unterschiedlichen Werten für die Parametrisierung. Unter Anwendung der für den Universaloperatorsatz verwendeten Konvention wird der Operatorsatz OS(PA) mit entsprechenden Werten parametrisiert: Prs(PA), Pfs(PA), Pru(PA), Psd(PA), Dd(PA), und Dc(PA). Diese Parameterwerte werden ebenfalls durch die Operatorparametrisiereinheit 28 als eine Funktion der Emotion, des Emotionsgrads und anderer Faktoren, welche von der Schnittstelleneinheit 30 bereitgestellt werden, berechnet. Die Wahl der Parameter wird im Allgemeinen getroffen, um der Sprache entsprechend der betrachteten Emotion einen Grad an Intonation (Satzrhythmus) hinzuzufügen. Ein zusätzlicher Parameter des probabilistischen Akzentuierungsoperatorsatzes OS(PA) ist der Wert der Wahrscheinlichkeit N, wie oben definiert. Dieser Wert hängt von der Emotion und dem Emotionsgrad, sowie von anderen Faktoren ab, beispielsweise von der Art der Silbendatei.
Sobald die Parameter erhalten wurden, werden sie in die Operatorsatzkonfigurationseinheit 26 eingegeben, um den kompletten probabilistischen Akzentuierungsparametersatz OS(PA) (Schritt S12) zu bilden.
Als nächstes wird bestimmt, welche der Silben diesem Operatorsatz OS(PA) unterworfen werden, welche durch die Zufallsauswahleinheit 38 bestimmt wurden (Schritt S14). Die letztere liefert die Liste der nach dem Zufallsprinzip ausgewählten Silben für die Akzentuierung durch diesen Operatorsatz. Wie oben erklärt, sind Kandidatensilben:

– alle Silben, wenn sie unverständlichen Soundarten zugeordnet sind, oder wenn es keine verbotenen Akzentuierungen auf Silben gibt, oder
– nur die erlaubten (akzentuierbaren) Silben, wenn diese in der Datei spezifiziert sind. Dieses ist normalerweise bei bedeutungsvollen Wörtern der Fall.

Die nach dem Zufallsprinzip ausgewählten Silben unter den Kandidaten werden dann für die Verarbeitung durch den probabilistischen Akzentuierungsoperatorsatz OS(PA) durch die Silbendatenmodifiziereinheit 40 vorgebracht (Schritt S16). Die tatsächliche ausgeführte Verarbeitung ist die selbe wie oben für den Universaloperatorsatz erklärt, mit den gleichen technischen Betrachtungen, wobei der einzige Unterschied in den betroffenen Parameterwerten liegt.
Es ist anzumerken, dass die Verarbeitung durch den probabilistischen Akzentuierungsoperatorsatz OS(PA) bei Silbendaten ausgeführt wird, welche bereits durch den Universaloperatorsatz OS(U) verarbeitet wurden. Mathematisch kann diese Tatsache für ein Silbendatenelement Si einer verarbeiteten Datei, nachdem es bei Schritt S14 ausgewählt wurde, wie folgt dargestellt werden: OS(PA).OS(U).Si → Sipacc, wobei Sipacc die resultierenden Daten für die akzentuierte verarbeitete Silbe darstellt.
Für alle Silben, außer den Silben der ersten und letzten Wörter einer Phrase, welche in der Vokalisierungsdateieinheit 10 enthalten sind, liefert die Silbendatenmodifiziereinheit 40 die folgenden modifizierten Formen der ursprünglich in der Datei 10 enthaltenen Silbendaten (generisch mit S bezeichnet):

– OS(U).S → Spna für die Silbendaten, welche bei Schritt S14 nicht ausgewählt wurden, wobei Spna eine verarbeitete nicht-akzentuierte Silbe kennzeichnet, und
– OS(PA).OS(U).S → Spacc für die Silbedaten, welche bei Schritt S14 ausgewählt wurden, wobei Spacc eine verarbeitete akzentuierte Silbe kennzeichnet.

Schließlich gelangt der Prozess in eine Phase P4 der Verarbeitung einer für erste und letzte Silben einer Phrase spezifischen Akzentuierung. Wenn eine Phrase aus identifizierbaren Wörtern besteht, agiert diese Phase P4, um alle Silben der ersten und letzten Wörter einer Phrase zu akzentuieren. Die Begriff "Phrase" kann in einer normalen grammatikalischen Bedeutung für verständlichen zu sprechenden Text verstanden werden, beispielsweise im Sinne von Pausen bei der Rezitation. Im Falle von unverständlichem Sound, wie beispielsweise Geplapper oder Tiernachahmungen, wird eine Phrase im Sinne von Anfang und Ende einer Äußerung verstanden, gekennzeichnet durch eine Pause. Typischerweise kann eine solche Phrase von zirka einer bis drei oder bis vier Sekunden dauern. Für unverständliche Soundarten trifft die Phase P4 des Akzentuierens der letzten Silben auf zumindest die ersten und letzten Silben, und vorzugsweise auf die ersten m und letzten n Silben zu, wobei m oder n typischerweise gleich zirka 2 oder 3 sind, und gleich oder unterschiedlich sein können.
Wie in den vorherigen Phasen wird eine spezifische Parametrisierung der gleichen elementaren Operatoren OPrs, OPfs, OPsu, OPsd, ODd, ODc ausgeführt, und ergibt einen Akzentuierungsoperatorsatz OS(FL) für die erste und letzte Silbe, parametrisiert durch einen entsprechenden zugeordneten Wert, jeweils Prs(FL), Pfs(FL), Psu(FL), Psd(FL), Dd(FL), und Dc(FL) (Schritt S18). Diese Parameterwerte werden ebenfalls durch die Operatorparametrisiereinheit 28 als eine Funktion von der Emotion, dem Emotionsgrad und von anderen Faktoren, welche von der Schnittstelleneinheit 30 bereitgestellt werden, berechnet.
Der resultierende Operatorsatz OS(FL) wird dann bei den ersten und letzten Silben jeder Phrase angewendet (Schritt S20), wobei diese Silben durch die Identifizierungseinheit 34 für erste/letzte Silben identifiziert werden.
Wie oben werden die Silbendaten, bei welchen der Operatorsatz OS(FL) angewendet wird, vorher durch den Universaloperatorsatz OS(U) bei Schritt S10 verarbeitet. Zusätzlich kann es vorkommen, dass erste oder letzte Silbe(n) auch bei Zufallsauswahlschritt S14 ausgewählt werden, und dadurch auch von dem probabilistischen Akzentuierungsoperatorsatz OS(PA) verarbeitet werden.
Es gibt folglich zwei Möglichkeiten der Verarbeitung für eine erste oder letzte Silbe, welche nachfolgend unter Anwendung der oben definierten Konvention beschrieben werden:

– Möglichkeit eins: Verarbeitung durch Operatorsatz OS(U) und dann durch Operatorsatz OS(FL), mit dem Ergebnis: OS(FL).OS(U).S → Spfl(1), und
– Möglichkeit zwei: sukzessive Verarbeitung durch Operatorsatz OS(U), OS(PA) und OS(FL), mit dem Ergebnis: OS(FL).OS(PA).OS(U).S → Spfl(2).

Diese einfache operatorbasierte Vorgehensweise erbrachte den Nachweis, Resultate zu erreichen, welche mit den von wesentlich komplexeren Systemen erhaltenen Resultaten zumindest vergleichbar sind, sowohl für bedeutungslose Äußerungen als auch bei Sprachausdrücken in einer erkennbaren Sprache.
Die Wahl der Parametrisierungen zum Ausdrücken einer gegebenen Emotion ist extrem subjektiv und variiert beträchtlich abhängig von der Form der Äußerung, der Sprache, etc.. Jedoch aufgrund des Besitzes von einfachen, genau definierten Parametern, welche nicht viel Echtzeitverarbeitung erfordern, ist es einfach, viele mögliche Kombinationen von Parametrisierungen zu scannen, um die zufriedenstellendsten Operatorsätze zu erhalten.
Nur um ein anschauliches Beispiel zu vermitteln, hat der Anmelder herausgefunden, dass gute Resultate mit den folgenden Parametrisierungen erreicht werden können:

– Traurigkeit: Tonhöhe für den Universaloperatorsatz = Gefälle mit kleiner Neigung Daueroperator = Dilatation Wahrscheinlichkeit der Auswahl N für eine Akzentuierung: niedrig
– Ruhe: kein Operatorsatz angewendet, oder nur leicht parametrisierter Universaloperator
– Glück: Tonhöhe für Universaloperatorsatz = Steigung mit mäßig hoher Neigung Dauer für Universaloperatorsatz = Kontraktion Dauer für akzentuierten Operatorsatz = Dilatation
– Zorn: Tonhöhe für alle Operatorsätze = Gefälle mit mäßig hoher Neigung Dauer für alle Operatorsätze = Kontraktion

Für einen in dem oben genannten Beispiel nicht spezifizierten Operatorsatz: eine Parametrisierung vom gleichen allgemeinen Typ für alle Operatorsätze. Im Allgemeinen ist die Art der Änderungen (Steigung, Kontraktion, etc.) für alle Operatorsätze dieselbe, nur die tatsächlichen Werte sind unterschiedlich. Hier werden die Werte normalerweise derart gewählt, so dass der kleinste Änderungsbetrag durch den Universaloperatorsatz erzeugt wird, und der größte Änderungsbetrag durch die Akzentuierung von erster und letzter Silbe erzeugt wird, wobei der probabilistische Akzentuierungsoperatorsatz einen dazwischen liegenden Änderungsbetrag erzeugt.
Das System kann auch gebildet werden, um Intensitätsoperatoren OI in seinem Satz anzuwenden, abhängig von der angewendeten Parametrisierung.
Die Schnittstelleneinheit 30 kann in eine Computerschnittstelle integriert werden, um unterschiedliche Steuerungen zur Verfügung zu stellen. Unter diesen kann sich eine direkte Wahl von Parametern der unterschiedlichen, oben genannten Operatorsätze befinden, um den Benutzer 32 zu erlauben, das System fein abzustimmen. Die Schnittstelle kann benutzerfreundlich gebildet werden, indem man visuelle Anzeigen zur Verfügung stellt, welche beispielsweise graphisch die Neigungswerte, die Verschiebungswerte, die Kontraktions-/Dilatationswerte für die unterschiedlichen Parameter darstellen.
Auch ist es klar, dass die Aufspaltung der elementaren Operatoren, dargestellt in den 6, 7 und 8 und angewendet in dem Prozess von den 9a und 9b, mit Blick auf eine leichter verständliche Wiedergabe der Offenlegung gebildet wurde. In der Praxis können komplementäre Paaroperatoren, wie beispielsweise Steigungs- und Gefälleoperatoren in einem einzelnen Operator kombiniert werden, welcher entweder eine Steigung oder ein Gefälle abhängig von seiner Parametrisierung verleihen kann. Ebenso können die Aufwärtsverschiebungs- und die Abwärtsverschiebungsoperatoren in nur einem Operator kombiniert werden, welcher die Tonhöhen- oder Intensitätskontur abhängig von seiner Parametrisierung aufwärts oder abwärts verschieben kann. Dasselbe trifft auch für die Daueroperatoren zu, wie bereits oben genannt.
Die Beispiele werden für ein gegebenes Format von Sprachdaten veranschaulicht, aber es ist klar, dass jede andere Formatierung der Daten angenommen werden kann. Die Anzahl der in den Beispielen angegebenen Tonhöhen- oder Intensitätswerte kann verschieden von fünf sein, die typische Anzahl der Werte reicht von nur einem Wert bis zu mehr als fünf Werten.
Während die Erfindung auf der Grundlage von vorher gespeicherten numerischen Daten beschrieben wurde, welche die zu synthetisierende Sprache repräsentieren, kann für ein System auch beabsichtigt werden, elektronische Signale von Äußerungen zu verarbeiten, entweder in digitaler oder in analoger Form. In diesem Fall können die Operatoren direkt auf die Tonhöhe, die Intensität, oder die Signalamplituden einwirken. Dieses kann durch digitale Soundverarbeitung oder durch Analogschaltkreise, wie beispielsweise Rampengeneratoren, Pegelverschieber, Verzögerungsstrecken, etc. erreicht werden.
Die Ausführungsform kann in einer großen Vielfalt von Vorrichtungen implementiert werden, beispielsweise in: Roboterhaustieren und anderen intelligenten elektronischen Geschöpfen, Soundsystemen für pädagogisches Training, Studioproduktionen (Synchronisation, Sprachanimationen, Erzählung, etc.), Vorrichtungen für das laute Vorlesen von Texten (Bücher, Artikel, Post, etc.), Soundexperimentiersystemen (psycho-akustische Forschung etc.), vermenschlichten Computerschnittstellen für PC, Instrumente und andere Ausrüstung, und anderen Anwendungen, etc..
Die Form der Ausführungsform kann umfassen, eine allein operierende Einheit, vollständig ausgerüstet, um eine komplette synthetisierte Soundreproduktion (vergleiche 3) zu ermöglichen, ein Zusatzgerät, welches mit dem vorhandenen Soundsynthetisieren funktionsfähig ist, oder Softwaremodule, aufgezeichnet auf einem Medium oder als Download, welche auf angepassten Prozessorsystemen gestartet werden.

Claims

Synthetisierverfahren für eine auf einem Sound übertragene Emotion, indem selektiv zumindest ein elementarer Soundabschnitt (S) davon modifiziert wird, bevor der Sound übertragen wird, wobei die Modifikation von einem Operatoranwendungsschritt (S10, S16, S20) produziert wird, bei welchem zumindest ein Operator (OP, OD, OI) selektiv bei zumindest einem elementaren Soundabschnitt (S) angewendet wird, um eine spezifische Modifikation bei einer Charakteristik davon in Übereinstimmung mit einer zu synthetisierenden Emotion zu bestimmen, dadurch gekennzeichnet, dass das Verfahren weiter umfasst, eine probabilistische Akzentuierungsphase (P3), bei welcher zumindest ein Operator nur bei ausgewählten elementaren Soundabschnitten (S), welche für eine Akzentuierung bestimmt sind, angewendet wird (S16).
Verfahren gemäß Anspruch 1, wobei die Charakteristik umfasst, zumindest einen der Parameter: – Tonhöhe, und – Tondauer der elementaren Soundabschnitte (S).
Verfahren gemäß Anspruch 2, wobei der Operatoranwendungsschritt (S10, S16, S20) umfasst, das Bilden zumindest eines Satzes von Operatoren (OS(U), OS(PA), OS(FL)), wobei der Satz umfasst, zumindest einen Operator (OPrs, OPfs, OPsu, OPsd), um eine Tonhöhencharakteristik zu modifizieren, und/oder zumindest einen Operator (ODd, ODc), um eine Tondauercharakteristik der elementaren Soundabschnitte (S) zu modifizieren.
Verfahren gemäß einem der Ansprüche 1 bis 3, wobei der Operatoranwendungsschritt (S10, S16, S20) umfasst, das Anwenden zumindest eines Operators (OIrs, OIfs, OIsu, OIsd), um eine Tonintensitätscharakteristik der elementaren Soundabschnitte zu modifizieren.
Verfahren gemäß einem der Ansprüche 1 bis 4, welches weiter umfasst, einen Schritt (S8, S12, S18) zum Parametrisieren zumindest eines Operators (OP, OI, OD), wobei ein numerischer Parameter einen Betrag von einer spezifischen Modifikation bestimmt, welche mit einem Operator in Übereinstimmung mit einer zu synthetisierenden Emotion verbunden ist.
Verfahren gemäß einem der Ansprüche 1 bis 5, wobei der Operatoranwendungsschritt (S10, S16, S20) umfasst, das Anwenden eines Operators (OPrs, OPfs), um selektiv zu bewirken, dass der Zeitverlauf der Tonhöhe eines elementaren Soundabschnitts (S) entsprechend einer bestimmten Steigungscharakteristik (Prs, Pfs) steigt oder fällt.
Verfahren gemäß einem der Ansprüche 1 bis 6, wobei der Operatoranwendungsschritt (S10, S16, S20) umfasst, das Anwenden eines Operators (OPsu, OPsd), um selektiv zu bewirken, dass der Zeitverlauf der Tonhöhe eines elementaren Soundabschnitts (S) gleichmäßig um einen bestimmten Wert (Psu, Psd) steigt oder fällt.
Verfahren gemäß einem der Ansprüche 1 bis 7, wobei der Operatoranwendungsschritt (S10, S16, S20) umfasst, das Anwenden eines Operators (ODd, ODc), um selektiv zu bewirken, dass die Tondauer (t1) eines elementaren Soundabschnitts (S) um einen bestimmten Wert (D) zunimmt oder abnimmt.
Verfahren gemäß einem der Ansprüche 1 bis 8, welches eine Universalphase (P2) umfasst, bei welcher zumindest ein Operator (OP(U), OD(U)) systematisch bei allen elementaren Soundabschnitten (S) zum Bilden einer bestimmten Soundsequenz angewendet wird (S10).
Verfahren gemäß Anspruch 9, wobei zumindest ein Operator (OP(U), OD(U)) mit der gleichen Operatorparametrisierung (S8) bei allen elementaren Soundabschnitten (S) zum Bilden einer bestimmten Soundsequenz angewendet wird.
Verfahren gemäß einem der Ansprüche 1 bis 10, wobei die ausgewählten, zu akzentuierenden elementaren Soundabschnitte (S) durch eine Zufallsauswahl (S14) aus verfügbaren elementaren Soundabschnitten (S) ausgewählt werden.
Verfahren gemäß Anspruch 11, wobei die Zufallsauswahl zu akzentuierende elementare Soundabschnitte (S) mit einer Wahrscheinlichkeit (N) auswählt, welche programmierbar ist.
Verfahren gemäß Anspruch 11 oder 12, wobei die verfügbaren elementaren Soundabschnitte sind: – alle elementaren Soundabschnitte, sobald eine Quelle (10) der Abschnitte eine Akzentuierung bei einigen Datenabschnitten zulässt, und – nur jene elementaren Soundabschnitte, welche für eine Akzentuierung zugelassen sind, sobald die Quelle (10) Akzentuierungen bei einigen Datenabschnitten nicht zulässt.
Verfahren gemäß einem der Ansprüche 1 bis 13, wobei die gleiche Operatorparametrisierung (S12) für zumindest einen Operator (OP(PA), OD(PA)) verwendet wird, welcher bei der probabilistischen Akzentuierungsphase (P3) angewendet wird.
Verfahren gemäß einem der Ansprüche 1 bis 14, welches weiter umfasst, eine Akzentuierungsphase (S4) für erste und letzte elementare Soundabschnitte, bei welchen zumindest ein Operator (OP(FL), OD(FL)) nur bei einer Gruppe von zumindest einem elementaren Soundabschnitt zum Bilden des Anfangs und des Endes der bestimmten Soundsequenz angewendet wird (S10).
Verfahren gemäß einem der Ansprüche 9 bis 15, wobei die bestimmte Soundsequenz eine Phrase ist.
Verfahren gemäß einem der Ansprüche 1 bis 16, wobei die elementaren Abschnitte des Sounds (S) einer Silbe oder einem Phonem entsprechen.
Verfahren gemäß einem der Ansprüche 1 bis 17, wobei die elementaren Soundabschnitte einer verständlichen Sprechweise entsprechen.
Verfahren gemäß einem der Ansprüche 1 bis 18, wobei die elementaren Soundabschnitte unverständlichen Soundarten entsprechen.
Verfahren gemäß einem der Ansprüche 1 bis 19, wobei die elementaren Soundabschnitte als formatierte Datenwerte dargestellt sind, welche eine Tondauer (t1) und/oder zumindest einen Tonhöhenwert (P1–P5) spezifizieren, welcher über bestimmte Anteile der Tondauer oder über die Gesamttondauer des elementaren Sounds auftritt.
Verfahren gemäß Anspruch 19, wobei die Operatoren (OP, OP, OD) wirken, um die Datenwerte selektiv zu modifizieren.
Verfahren gemäß Anspruch 20 oder 21, welches ohne das Ändern des Datenformats der Daten des elementaren Soundabschnitts und stromaufwärts von einer Interpolationsstufe (14) ausgeführt wird, wobei die Interpolationsstufe Daten verarbeiten kann, welche in Übereinstimmung mit einer zu synthetisierenden Emotion in der gleichen Weise modifiziert sind, wie die Daten, welche von einer Arbiträrquelle (10) für elementare Soundabschnitte (S) erhalten werden.
Gerät zum Synthetisieren einer auf einem Sound übertragenen Emotion, welches ein Hilfsmittel verwendet, um selektiv zumindest einen elementaren Soundabschnitt (S) davon zu modifizieren, bevor der Sound übertragen wird, wobei das Hilfsmittel umfasst, ein Operatoranwendungsmittel (22) zum Anwenden (S10, S16, S20) zumindest eines Operators (OP, OD, OI) bei zumindest einem elementaren Soundabschnitt (S), um eine spezifische Modifikation bei einer Charakteristik davon in Übereinstimmung mit einer zu synthetisierenden Emotion zu bestimmen, dadurch gekennzeichnet, dass es weiter umfasst, ein Hilfsmittel zur Ausführung einer probabilistischen Akzentuierungsphase, wobei das Hilfsmittel in der Lage ist, zumindest einen Operator nur bei ausgewählten elementaren Soundabschnitten (S), welche für eine Akzentuierung bestimmt sind, anzuwenden (S16).
Gerät gemäß Anspruch 23, wobei das Operatoranwendungsmittel (22) ein Hilfsmittel (26, 28) zum Bilden zumindest eines Satzes von Operatoren (OS(U), OS(PA), OS(FL)) umfasst, wobei der Satz umfasst, zumindest einen Operator (OPrs, OPfs, OPsu, OPsd), um eine Tonhöhencharakteristik zu modifizieren, und/oder zumindest einen Operator (ODd, ODc), um eine Tondauercharakteristik der elementaren Soundabschnitte (S) zu modifizieren.
Gerät gemäß einem der Ansprüche 23 oder 24, welches einen Operator (OPrs, OPfs) umfasst, um selektiv zu bewirken, dass der Zeitverlauf der Tonhöhe eines elementaren Soundabschnitts (S) gemäß einer bestimmten Steigungscharakteristik (Prs, Pfs) steigt oder fällt.
Gerät gemäß einem der Ansprüche 23 bis 25, welches einen Operator (OPsu, OPsd) umfasst, um selektiv zu bewirken, dass der Zeitverlauf der Tonhöhe eines elementaren Soundabschnitts (S) gleichmäßig um einen bestimmten Wert (Psu, Psd) steigt oder fällt.
Gerät gemäß einem der Ansprüche 23 bis 26, welches einen Operator (ODd, ODc) umfasst, um selektiv zu bewirken, dass die Tondauer (t1) eines elementaren Soundabschnitts (S) um einen bestimmten Wert (D) zunimmt oder abnimmt.
Gerät gemäß einem der Ansprüche 23 bis 27, welches in der Lage ist, zumindest eine der nachfolgenden Phasen auszuführen: i) eine Universalphase (P2), bei welcher zumindest ein Operator (OP(U), OD(U)) systematisch bei allen elementaren Soundabschnitten (S) zum Bilden einer bestimmten Soundsequenz angewendet wird (S10); und ii) eine Akzentuierungsphase (S4) für erste und letzte elementare Soundabschnitte, bei welcher zumindest ein Operator (OP(FL), OD(FL)) nur bei einer Gruppe von zumindest einem elementaren Soundabschnitt zum Bilden des Anfangs und des Endes einer bestimmten Soundsequenz angewendet wird (S10).
Gerät gemäß einem der Ansprüche 23 bis 28, welches ein Zufallsauswahl-Selektionsmittel umfasst, um elementare zu akzentuierende Soundabschnitte durch eine Zufallsauswahl (S14) aus verfügbaren elementaren Soundabschnitten (S) auszuwählen.
Gerät gemäß Anspruch 29, wobei das Zufallsauswahl-Selektionsmittel in der Lage ist, elementare Soundabschnitte (S) in der Zufallsauswahl mit einer Wahrscheinlichkeit (N), welche programmierbar ist, auszuwählen.
Gerät gemäß Anspruch 29 oder 30, wobei die verfügbaren elementaren Soundabschnitte sind: – alle elementaren Soundabschnitte, sobald eine Quelle (10) der Abschnitte eine Akzentuierung bei einigen Datenabschnitten zulässt, und – nur jene elementaren Soundabschnitte, welche für eine Akzentuierung zugelassen sind, sobald die Quelle (10) Akzentuierungen bei einigen Datenabschnitten nicht zulässt.
Gerät gemäß einem der Ansprüche 23 bis 31, welches in der Lage ist, eine gleiche Operatorparametrisierung (S12) für zumindest einen Operator (OP(PA), OD(PA)), welcher bei der probabilistischen Akzentuierungsphase angewendet wird, zu verwenden.
Gerät gemäß einem der Ansprüche 23 bis 32, welches in der Lage ist, zumindest einen Operator (OP(FL), OD(FL)) nur bei einer Gruppe von zumindest einem elementaren Soundabschnitt zum Bilden des Anfangs und des Endes einer bestimmten Soundsequenz anzuwenden (S10).
Gerät gemäß einem der Ansprüche 23 bis 33, wobei das Operatoranwendungsmittel (22) mit extern zugeführten formatierten Datenwerten arbeitet, welche eine Tondauer (t1) und/oder zumindest einen Tonhöhenwert (P1–P5) spezifizieren, welcher über bestimmte Anteile der Tondauer oder über die Gesamttondauer des elementaren Sounds auftritt.
Gerät gemäß Anspruch 34, wobei das Operatoranwendungsmittel (22) ohne das Ändern des Datenformats der Daten des elementaren Soundabschnitts und stromaufwärts von einer Interpolationsstufe (14) arbeitet, wobei die Interpolationsstufe Daten verarbeiten kann, welche in Übereinstimmung mit einer zu synthetisierenden Emotion in der gleichen Art und Weise modifiziert sind, wie die Daten, welche von einer Arbiträrquelle (10) für elementare Soundabschnitte (S) erhalten werden.
Datenmedium, welches ein Softwaremodulmittel umfasst, um jeden der Verfahrensschritte gemäß einem der Ansprüche 1 bis 22 auszuführen, sobald die Software auf einem Computer gestartet ist.