-
Die
Erfindung bezieht sich auf das Gebiet der Sprachsynthese oder Sprachwiedergabe
mit einem steuerbaren emotionalen Inhalt. Besonders bezieht sich
die Erfindung auf ein Verfahren und eine Vorrichtung für das steuerbare
Hinzufügen
eines emotionalen Gefühls
zu einer Sprachsynthese oder einer Sprachprobe oder, mit Blick auf
das Bereitstellen einer natürlicheren
oder interessanteren Übertragung
zu sprechenden Objekten oder zu Objekten, welche einen anderen Sound
emittieren.
-
Es
ist allgemein bekannt, dass die menschliche Stimme stark durch eine
Emotion, entweder absichtlich (beispielsweise durch eine Intensitätserhöhung, um
Zorn auszudrücken)
oder unabsichtlich als eine physiologische Antwort auf eine Emotion
oder die Ursache einer Emotion beeinflusst wird: trockener Mund,
verändertes
Atmungsmuster etc.. Diese durch eine Emotion verursachten Änderungen
in der Stimme und in der Übertragung
fügen den
Informationen, welche durch den Sprecher übermittelt werden, eine subjektive
Dimension hinzu, und sind für
eine erfolgreiche Kommunikation nützlich.
-
Mit
dem Auftreten von immer komplizierteren Objekten, welche durch Sprache
oder durch Soundausdrücke
kommunizieren, wie beispielsweise Haustierroboter und dergleichen,
welche menschliche oder tierische Verhaltensweisen imitieren, gibt
es einen steigenden Bedarf an der Verwendung von technischen Mitteln, um
auch einen Emotionsausdruck in ihrer Kommunikation zu vermitteln.
In der Tat ist beispielsweise bei einem Roboterapparat eine Sprechfunktion
mit einem emotionalen Ausdruck sehr wirkungsvoll, um ein gutes Verhältnis zwischen
dem Roboterapparat und einem menschlichen Benutzer aufzubauen. Zusätzlich zur
Förderung eines
guten Verhältnisses
kann den menschlichen Benutzer ein Ausdruck von Zufriedenheit oder
von Unzufriedenheit auch anregen und ihn/sie motivieren, um auf
den emotionalen Ausdruck des Roboterapparates zu antworten oder
zu reagieren. Insbesondere ist eine solche Funktion bei einem Roboter
mit einer Lernfähigkeit nützlich.
-
Die
Möglichkeit
des Hinzufügens
eines Emotionsausdrucks bei der Sprachübertragung ist auch für computergestützte Systeme
nützlich,
welche Personen Texte oder Reden vorlesen, welche aus einem oder
anderem Grund nicht lesen können.
Es gibt Beispiele solcher Systeme, welche Romane, Zeitschriftenartikel
oder dergleichen vorlesen, wobei deren Hörvergnügenvermögen für eine Fokussierung der Aufmerksamkeit
erhöht werden
kann, wenn die Lesestimme Emotionen simulieren kann.
-
Gemäß dem Stand
der Technik sind drei allgemeine Vorgehensweisen bekannt, um Emotionen
bei der Sprachübertragung
zu imitieren.
-
Eine
erste Vorgehensweise, welche die schwierigste und vermutlich weniger
zufriedenstellende Vorgehensweise ist, basiert auf linguistischen
Theorien für
die Bestimmung von Intonationen.
-
Eine
zweite Vorgehensweise nutzt Datenbanken mit durch menschliche Sprecher
produzierten Phrasen, die mit den unterschiedlichen Emotionen eingefärbt sind.
Um eine spezifische Phrase mit dem gewünschten Emotionsausdruck zu
produzieren, wird die am ähnlichsten
klingende Phrase mit dem entsprechenden Emotionsausdruck von der
Datenbank extrahiert. Ihre Tonhöhenkontur
wird gemessen und kopiert, um sie auf der ausgewählten, zu produzierenden Phrase
aufzubringen. Diese Vorgehensweise ist hauptsächlich verwendbar, wenn die
Datenbank und die produzierten Phrasen sehr ähnliche grammatikalische Strukturen
aufweisen. Die Implementierung ist ebenfalls schwierig.
-
Eine
dritte Vorgehensweise, welche als die wirkungsvollste Vorgehensweise
betrachtet wird, ist die Anwendung von Sprachsynthesizern, welche
eine Datenbank aus aufgezeichneten menschlichen Stimmen abfragen.
Diese Sprachsynthesizer funktionieren, indem sie Phoneme oder kurze
Silben verketten, produziert durch die menschliche Stimme zum Resynthetisieren
von Soundsequenzen, welche der geforderten gesprochenen Nachricht
entsprechen. Anstatt nur neutrale Stimmen zu enthalten, umfasst
die Datenbank mit unterschiedlichen Emotionen gesprochene Stimmen.
Jedoch haben diese Systeme zwei grundlegende Beschränkungen.
Erstens sind sie schwierig zu implementieren, und zweitens werden
die Datenbanken normalerweise durch Stimmen von unterschiedlichen
Personen aus praktischen Gründen
geschaffen. Dieses kann nachteilig sein, wenn Zuhörer erwarten,
dass die synthetisierte Stimme immer von dem gleichen Sprecher zu
kommen scheint.
-
Es
gibt auch ein Sprachsynthese-Softwaremodul, welches die Steuerung
einer gewissen Anzahl von Parametern erlaubt, aber innerhalb einer
geschlossenen Architektur, welche für das Entwickeln von neuen
Anwendungen nicht zugänglich
ist.
-
Das
Patentdokument US-A-5860064 beschreibt ein Softwaretool, welches
eine Stimmemotion auf einen ausgewählten Text aufbringen kann.
Der Text erscheint auf einem Bildschirm, und die Wörter können für das Aufprägen einer
Emotion von einem Nutzer durch "Handgriffe" ausgewählt werden,
welche selektiv beispielsweise die Tonlautstärke oder die Tondauer beeinflussen.
Die Emotionen werden durch Farbekodes, Hervorheben oder eine Schriftart
angezeigt. Nachdem ein Textabschnitt ausgewählt wurde und eine bestimmte Stimmemotion
gewählt
wurde, werden geeignete Sprachsynthesizerwerte von einer Verweistabelle
erlangt und bei Sprachsynthesizerbefehlen verwendet. Zusätzlich zu
Tonlautstärke
und Tondauer werden auch Tonhöheneinstellparameter
von dem Sprachsynthesizer verwendet.
-
Angesichts
des Vorangehenden schlägt
die Erfindung eine neue Vorgehensweise vor, welche einfach zu implementieren
ist, überzeugende
Ergebnisse liefert, und einfach zu parametrisieren ist.
-
Die
Erfindung ermöglicht
es auch, Emotionen bei einer Sprachsynthese für bedeutungsvolle Sprachinhalte
in einer erkennbaren Sprache, sowohl mit einer natürlich klingenden
Stimme als auch mit absichtlich verzerrten, übertriebenen Stimmen zu reproduzieren,
beispielsweise gesprochen durch Cartoon-Figuren, sprechende Tiere
oder nicht-menschliche animierte Gestalten, einfach durch das Nutzen
von Parametern. Die Erfindung ist auch offen für das Zuordnen von Emotionen
auf Stimmen, welche einen bedeutungslosen Sound übertragen, wie beispielsweise
Geplapper.
-
Insbesondere
schlägt
die Erfindung gemäß einem
ersten Aspekt ein Synthetisierverfahren für eine auf einem Sound übertragene
Emotion vor, indem zumindest ein elementarer Soundabschnitt davon
selektiv modifiziert wird, bevor der Sound übertragen wird, wobei
die
Modifikation von einem Operatoranwendungsschritt produziert wird,
bei welchem zumindest ein Operator selektiv an zumindest einem elementaren
Soundabschnitt angewendet wird, um eine spezifische Modifikation bei
einer Charakteristik davon zu bestimmen, wie beispielsweise der
Tonhöhe
oder der Tondauer, in Übereinstimmung
mit einer zu synthetisierenden Emotion, wobei das Verfahren durch
eine probabilistische Akzentuierungsphase gekennzeichnet ist, bei
welcher zumindest ein vorher genannter Operator nur bei ausgewählten elementaren
Soundabschnitten, welche für
eine Akzentuierung bestimmt sind, angewendet wird.
-
Der
Operatoranwendungsschritt umfasst vorzugsweise das Bilden zumindest
eines Satzes von Operatoren, wobei der Satz zumindest einen Operator
umfasst, um eine Tonhöhencharakteristik
zu modifizieren, und/oder zumindest einen Operator, um eine Tondauercharakteristik
der elementaren Soundabschnitte zu modifizieren.
-
Es
kann auch beabsichtigt werden, einen Operatoranwendungsschritt für das Anwenden
zumindest eines Operators vorzusehen, um eine Tonintensitätscharakteristik
der elementaren Soundabschnitte zu modifizieren.
-
In
der Ausführungsform
ist ein Schritt zum Parametrisieren zumindest eines Operators vorgesehen, wobei
ein numerischer Parameter einen Betrag von einer spezifischen Modifikation
bestimmt, welche mit einem Operator in Übereinstimmung mit einer zu
synthetisierenden Emotion verbunden ist.
-
Vorteilhafterweise
umfasst der Operatoranwendungsschritt das Anwenden:
- – eines
Operators, um selektiv zu bewirken, dass der Zeitverlauf der Tonhöhe eines
elementaren Soundabschnitts entsprechend einer bestimmten Steigungscharakteristik
steigt oder fällt;
und/oder
- – eines
Operators, um selektiv zu bewirken, dass der Zeitverlauf der Tonhöhe eines
elementaren Soundabschnitts gleichmäßig um einen bestimmten Wert
steigt oder fällt;
und/oder
- – eines
Operators, um selektiv zu bewirken, dass die Tondauer eines elementaren
Soundabschnitts um einen bestimmten Wert zunimmt oder abnimmt.
-
Das
Verfahren kann eine Universalphase umfassen, bei welcher zumindest
ein Operator systematisch bei allen elementaren Soundabschnitten
zum Bilden einer bestimmten Soundsequenz angewendet wird.
-
In
dieser Phase kann zumindest ein Operator mit der gleichen Operatorparametrisierung
an allen elementaren Soundabschnitten zum Bilden einer bestimmten
Soundsequenz angewendet werden.
-
Die
ausgewählten
elementaren Soundabschnitte können
durch eine Zufallsauswahl aus den verfügbaren elementaren Soundabschnitten
ausgewählt
werden, wobei vorzugsweise elementare Soundabschnitte mit einer
programmierbaren Wahrscheinlichkeit ausgewählt werden.
-
Die
verfügbaren
elementaren Soundabschnitte können
sein:
- – alle
elementaren Soundabschnitte, wenn eine Quelle der Abschnitte eine
Akzentuierung bei einigen Datenabschnitten zulässt, oder
- – nur
jene elementaren Soundabschnitte, welche für eine Akzentuierung zugelassen
sind, wenn die Quelle Akzentuierungen bei einigen Datenabschnitten
nicht zulässt.
-
Eine
gleiche Operatorparametrisierung kann für den zumindest einen Operator
verwendet werden, welcher in der probabilistischen Akzentuierungsphase
angewendet wird.
-
Die
Verfahren kann eine Akzentuierungsphase für erste und letzte elementare
Soundabschnitte umfassen, in welcher zumindest ein Operator nur
bei einer Gruppe aus zumindest einem elementaren Soundabschnitt
zum Bilden des Anfangs und des Endes der bestimmten Soundsequenz
angewendet wird, wobei letztere beispielsweise eine Phrase ist.
-
Die
elementaren Soundabschnitte können
einer Silbe oder einem Phonem entsprechen.
-
Die
bestimmte Soundsequenz kann verständlicher Sprechweise oder unverständlichen
Soundarten entsprechen.
-
Die
elementaren Soundabschnitte können
als formatierte Datenwerte dargestellt werden, welche eine Tondauer
und/oder zumindest einen Tonhöhenwert
spezifizieren, welcher über
bestimmte Anteile der Tondauer oder über die Gesamttondauer des
elementaren Sounds auftritt.
-
In
diesem Fall können
die Operatoren wirken, um die Datenwerte selektiv zu modifizieren.
-
Das
Verfahren kann ohne das Ändern
des Datenformats der Daten des elementaren Soundabschnitts und stromaufwärts von
einer Interpolationsstufe ausgeführt
werden, wobei die Interpolationsstufe die Daten verarbeiten kann,
welche in Übereinstimmung
mit einer zu synthetisierenden Emotion in der gleichen Art und Weise
wie die Daten modifiziert sind, welche von einer Arbiträrquelle
für elementare
Soundabschnitte erhalten werden.
-
Entsprechend
einem zweiten Aspekt schafft die Erfindung eine Vorrichtung zum
Synthetisieren einer auf einem Sound übertragenen Emotion unter Verwendung
eines Hilfsmittels zum selektiven Modifizieren von zumindest einem
elementaren Soundabschnitt davon, bevor der Sound übertragen
wird,
wobei das Hilfsmittel umfasst, ein Operatoranwendungsmittel
zum Anwenden zumindest eines Operators bei zumindest einem elementaren
Soundabschnitt, um eine spezifische Modifikation bei einer Charakteristik
davon in Übereinstimmung
mit einer zu synthetisierenden Emotion zu bestimmen, dadurch gekennzeichnet,
dass es weiter umfasst, ein Hilfsmittel zum Ausführen einer probabilistischen
Akzentuierungsphase, wobei das Hilfsmittel in der Lage ist, zumindest
einen vorher genannten Operator nur bei ausgewählten elementaren Soundabschnitten,
welche für
eine Akzentuierung bestimmt sind, anzuwenden.
-
Die
oben im Kontext des Verfahrens (erster Aspekt) dargestellten optionalen
Kennzeichen können
mit kleinen Abweichungen auf die Vorrichtung gemäß dem zweiten Aspekt zutreffen.
-
Entsprechend
einem dritten Aspekt schafft die Erfindung einen Datenträger, welcher
Softwaremodule zum Ausführen
des Verfahrens gemäß dem ersten
oben genannten Aspekt umfasst.
-
Die
Erfindung und ihre Vorteile werden besser durch das Lesen der nachfolgenden
Beschreibung ihrer bevorzugten Ausführungsformen verstanden, welche
lediglich als nicht-einschränkende
Beispiele dargestellt sind, mit Bezug auf die beigefügten Zeichnungen,
in welchen:
-
die 1a und 1b ein
Programmbeispiel zum Produzieren eines in Übereinstimmung mit einem Verfahren
zu äußernden
Satzes sind, welches in einem früheren
Europäischen
Patent des Antragstellers beschrieben ist, aus welchem das Vorliegende
Priorität
beansprucht,
-
die 2 ein
Diagramm ist, welches darstellt, wie Basisemotionen auf orthogonalen
Achsen positioniert werden können,
welche entsprechend Valenz und Erregung darstellen,
-
die 3 ein
Blockdiagramm ist, welches die Funktionseinheiten zeigt, welche
in ein Sprachsynthesesystem eingebunden sind, bei welchem die vorliegende
Erfindung angewendet werden kann,
-
die 4a eine
Abbildung einer typischen Datenstruktur zum Spezifizieren einer
Silbe ist, welche durch das System von 3 ausgewertet
wird,
-
die 4b eine
Abbildung ist, welche anzeigt, wie eine Tonhöhensignalkontur nach Interpolation
aus den Daten erzeugt wird, welche in der 4a dargestellt
sind,
-
die 5 ein
Blockdiagramm eines Operator-basierten Emotionserzeugungssystems
gemäß einer bevorzugten
Ausführungsform
der Erfindung ist,
-
die 6 eine
Diagrammdarstellung von Tonhöhenoperatoren
ist, welche durch das System von 5 verwendet
werden,
-
die 7 eine
Diagrammdarstellung von Tonintensitätsoperatoren ist, welche im
System von 5 optional verwendet werden
können,
-
die 8 eine
Diagrammdarstellung der Tondaueroperatoren ist, welche durch das
System von 5 verwendet werden, und
-
die 9 ein Flussdiagramm eines Emotionserzeugungsprozesses
ist, welcher mit Silbendaten durch das System von 5 ausgeführt wird.
-
Die
Erfindung ist eine Entwicklung einer Arbeit, welche Gegenstand einer
früheren
veröffentlichten
Europäischen
Patentanmeldung mit Nummer EP-A-1256931 des Anmelders war, angemeldet
am 11. Mai 2001, und zu welcher die vorliegende Anmeldung Priorität beansprucht.
-
Die
oben genannte frühere
Anmeldung betrifft eine Sprachsyntheseverfahren zum Synthetisieren
einer Stimme in Übereinstimmung
mit Informationen von einem Apparat, welcher eine Ausdrucksfähigkeit
und zumindest ein Emotionsmodell aufweist. Das Verfahren hier umfasst,
einen Emotionszustandsunterscheidungsschritt zum Unterscheiden eines
Emotionszustandes des Modells von einem Apparat mit einer Ausdrucksfähigkeit,
einen Satzausgangsschritt zum Ausgeben eines Satzes, welcher einen
zu äußernden
Inhalt in Form einer Stimme darstellt, einen Parametersteuerschritt
zum Steuern eines Parameters für
den Gebrauch bei der Sprachsynthese, abhängig von dem in dem Emotionszustandsunterscheidungsschritt
unterschiedenen Emotionszustand, und einen Sprachsyntheseschritt
zum Eingeben des Satzausgangs von dem Satzausgangsschritt in eine
Sprachsyntheseeinheit und zum Synthetisieren einer Stimme in Übereinstimmung
mit dem Steuerparameter.
-
Typischerweise
hat die Stimme in der früheren
Anmeldung einen bedeutungslosen Inhalt.
-
Wenn
der emotionale Zustand des emotionalen Modells größer als
ein vorbestimmter Wert ist, gibt der Satzausgangsschritt den Satz
aus und überträgt ihn zu
der Sprachsyntheseeinheit.
-
Der
Satzausgangsschritt kann einen Satz ausgeben, welcher zufällig für jede Äußerung erhalten
wird, und kann ihn zu der Sprachsyntheseeinheit übertragen.
-
Die
Sätze können eine
Anzahl von Phonemen umfassen, wobei ein Parameter die Tonhöhe, die
Tondauer und die Tonintensität
eines Phonems umfassen kann.
-
Der
Apparat mit einer Ausdrucksfähigkeit
kann eine autonome Art eines Roboterapparats sein, welcher in Erwiderung
auf gelieferte Eingangsinformationen agiert. Das Emotionsmodell
kann derart beschaffen sein, so dass es die in Frage kommende Aktion
verursacht. Das Sprachsyntheseverfahren kann dann weiter den Emotionsmodellzustandsänderungsschritt
in Übereinstimmung
mit den Eingangsinformationen umfassen, wodurch die Aktion bestimmt
wird.
-
Die
oben genannte frühere
Anmeldung erstreckt sich auch auf einen Apparat, welcher das oben
genannte Verfahren ausführen
kann.
-
Die
oben genannte frühere
Anwendung umfasst außerdem
einen autonomen Typ, und umfasst beispielsweise einen Roboter, welcher
in Übereinstimmung
mit den gelieferten Eingangsinformationen agiert und umfasst, ein
Emotionsmodell, welches die in Frage kommende Aktion verursacht,
ein Emotionszustandsunterscheidungsmittel zum Unterscheiden des
Emotionszustandes des Emotionsmodells, ein Satzausgangsmittel zum
Ausgeben eines Satzes, welcher einen zu äußernden Inhalt in Form einer
Stimme darstellt, ein Parametersteuermittel zum Steuern eines Parameters,
welcher in der Sprachsynthese verwendet wird, abhängig von dem
Emotionszustand, welcher durch das Emotionszustandsunterscheidungsmittel
unterschieden wird, und ein Sprachsynthesemittel, welches den Satzausgang
von dem Satzausgangsmittel empfängt,
und eine Stimme in Übereinstimmung
mit dem Steuerparameter resynthesiert.
-
Bevor
Ausführungsformen
der Erfindung detailliert beschrieben werden, fasst der nachfolgende
Abschnitt einleitende Untersuchungen des Anmelders zusammen, deren
Aspekte durch die oben genannte frühere anhängige Europäische Patentanmeldung abgedeckt
werden.
-
EINLEITENDE
UNTERSUCHUNGEN
-
Mehr
Aspekte, welche die oben genannte frühere anhängige Europäische Patentanmeldung betreffen, zu
welcher Priorität
beansprucht wird, werden nachfolgend bis zu dem Ende des Abschnitts
dargestellt, der mit "Validation
with Human Subjects" überschrieben
ist. Die letzten Jahre waren durch die zunehmende Entwicklung von
persönlichen
Robotern gekennzeichnet, welche entweder als neue pädagogische
Technologien verwendet werden (Druin A., Hendler J. (2000) "Robots for Kids:
Exploring new Technologies for Learning", Morgan Kauffman Publishers) oder zur
reinen Unterhaltung (Fujita M., Kitano H. (1998) "Development of an
autonomous quadruped Robot für
Robot Entertainment",
autonomous Robots, 5; Kusahara M. "The Art of Creating subjective Reality:
an Analysis of Japanese digital Pets", in Boudreau E., ed., in Artificial
Life 7 Workshop Proceedings, pp. 141–144). Typischerweise sehen
diese Roboter wie vertraute Haustiere aus, beispielsweise wie Hunde
oder Katzen (siehe beispielsweise den Sony AIBO Roboter), oder besitzen
manchmal die Gestalt von Kleinkindern, wie beispielsweise die Humanoiden
SDR3-X (Sony).
-
Die
Interaktionen mit diesen Maschinen unterscheiden sich deutlich von
der Art und Weise wie Menschen mit traditionellen Computern interagieren.
Bis jetzt hatten Menschen die Gewohnheit die Anwendung von sehr
unnatürlichen
Konventionen und Medien, wie beispielsweise von Tastaturen oder
von Dialogfenstern, zu erlernen, und mussten ein bedeutendes Wissen über die
Funktionsweise von Computern besitzen, um sie anwenden zu können. Demgegenüber sollten
persönliche
Roboter selbst versuchen, die natürlichen Konventionen (wie beispielsweise
die natürliche
Sprache oder soziale Verhaltensregeln wie die Höflichkeit) und die Medien (wie
beispielsweise die Sprache oder die Emotion) zu erlernen, welche
die Menschen seit Tausenden von Jahren anwenden.
-
Unter
den Fähigkeiten,
welche diese persönlichen
Roboter benötigen,
ist eine der grundlegendsten Fähigkeiten
die Fähigkeit,
menschliche Emotionen zu beherrschen (Picard R. (1997) Affective
Computing, MIT Press.), und insbesondere sollten sie in der Lage
sein, sowohl menschliche Emotionen zu erkennen als auch ihre eigenen
Emotionen auszudrücken.
In der Tat sind nicht nur Emotionen für das menschliche Urteilen
entscheidend, aber sie haben eine zentrale Bedeutung für soziale
Verhaltensregeln (Halliday M. (1975) "Learning how to mean: Explorations in
the Development of Language",
Elsevier, NY.) und insbesondere für die Steuerung von Dialogabläufen. Emotionale
Kommunikation ist gleichzeitig primitiv genug und leistungsfähig genug, so
dass Menschen sie viel bei der Interaktion mit Haustieren anwenden,
insbesondere bei der Zähmung
von Haustieren. Dieses ist auch zweifellos das, welches Kindern
das Bootstrap-Sprachenlernen ermöglicht
(Halliday, 1975 oben zitiert), und welches anspornen sollte, Robotern
eine natürliche
Sprache beizubringen.
-
Abgesehen
von der Sprache drücken
Menschen ihre Emotionen gegenüber
Anderen auf zwei Arten aus: durch die Modulation des Gesichtsausdruckes
(Ekman, P. (1982) "Emotions
in the Human Face",
Cambridge University Press, Cambridge) und durch die Modulation
der Intonation der Stimme (Banse, R. und Sherer, K. R., (1996) "Acoustic Profiles
in Vocal Emotion Expression",
Journal of Personality and Social Psychology, 70 (3): 614–636). Während die
Forschung auf dem Gebiet der automatisierten Erkennung von Emotionen in
Gesichtsausdrücken
jetzt sehr reichhaltig ist (A. Samal, P. Iyengar (1992) "Automatic Recognition
and Analysis of Human Faces and Facial Expression: a Survey", Pattern Recognition,
25 (1): 65–77),
ist die Forschung, welche sich mit der Sprachmodalität sowohl
bei einer automatisierten maschinellen Produktion als auch Erkennung
beschäftigt,
erst seit sehr wenigen Jahren aktiv (Bosh L. T. (2000) "Emotions: What is
possible in the ASR Framework?",
in Proceedings of the ISCA Workshop on Speech and Emotion).
-
Die
Forschung des Anmelders bestand darin, einem Baby-artigen Roboter
die Fähigkeit
zu verleihen, Emotionen mit der Stimme auszudrücken. Anders als bei den meisten
vorhandenen Arbeiten, hat der Anmelder auch die Möglichkeit
geprüft,
Emotionen in Cartoon-artiger bedeutungsloser Sprache zu übertragen,
welches unterschiedliche Anforderungen und unterschiedliche Restriktionen
aufweist als beispielsweise der Versuch, eine natürlich klingende,
Erwachsenen-artige, normale emotionale Sprache zu produzieren. Beispielsweise
bestand eine Aufgabe darin, dass Emotionen von Menschen mit einem
unterschiedlichen kulturellen oder linguistischen Hintergrund erkannt
werden können.
Die Vorgehensweise verwendet eine verkettete Sprachsynthese, und
die Algorithmen sind einfacher und vollständig spezifiziert im Vergleich
zu jenen, welche in anderen Studien, wie beispielsweise in den von
Breazal durchgeführten
Studien, verwendet werden.
-
DIE AKUSTISCHEN
KORRELATE VON EMOTIONEN IN DER MENSCHLICHEN SPRACHE
-
Um
diese Aufgabe zu lösen,
wurde zuerst festgestellt, ob es zuverlässige akustische Korrelate
einer Emotion/eines Affekts in den akustischen Charakteristiken
eines Sprachsignals gibt. Eine Anzahl von Forschern hat diese Fragestellung
bereits untersucht (Fairbanks 1940, Burkhardt F., Sendlmeier W.,
(2000) "Verification
of Acoustical Correlates of Emotional Speech using Formant-Synthesis", in Proceedings
of the ISCA Workshop in Speech and Emotion, Banse R. und Sherer
K. R. 1996 "Acoustic
Profiles in Vocal Emotion Expression", Journal of Personality and Social
Psychology, 70 (3): 614–636).
-
Ihre
Resultate stimmen bei Sprachkorrelaten überein, welche von physiologischen
Restriktionen kommen, und welche umfassenden Kategorien von Elementaremotionen
entsprechen, aber erzielen keine Übereinkunft und sind unklar,
wenn man die Unterschiede zwischen den akustischen Korrelaten von
beispielsweise Furcht und Überraschung
oder Langeweile und Traurigkeit betrachtet. In der Tat sind bestimmte
emotionale Zustände
häufig
mit bestimmten physiologischen Zuständen korreliert (Picard 1997 "Affective Computing", MIT Press), welche
wiederum ganz mechanische und folglich vorhersagbare Effekte auf
die Sprache, besonders auf die Tonhöhe, (Fundamentalfrequenz FO)
Timing und Sprachqualität
haben. Beispielsweise wenn man sich in einem Zustand des Zornes,
der Furcht oder der Freude befindet, wird das sympathische Nervensystem
erregt, der Puls und der Blutdruck steigen, der Mund wird trocken,
und es tritt gelegentliches Muskelzittern auf. Die Sprache ist dann
laut, schnell und wird mit einer starken Hochfrequenzenergie ausgesprochen.
Wenn man gelangweilt oder traurig ist, wird das parasympathische
Nervensystem erregt, der Puls und der Blutdruck nehmen ab, und der
Speichelfluss nimmt zu, und wird eine Sprache erzeugt, welche langsam
ist, eine niedrige Tonhöhe
besitzt, und eine geringe Hochfrequenzenergie (Breazal, 2000) aufweist.
-
Darüber hinaus
bedeutet die Tatsache, dass diese physiologischen Effekte ziemlich
allgemeingültig sind,
dass es gemeinsame Tendenzen bei den akustischen Korrelaten der
Elementaremotionen über
unterschiedliche Kulturen hinweg gibt. Dieses wurde genau untersucht
in Studien wie (Abelin A, Allwood J., (2000) "Cross-linguistic Interpretation of Emotional
Prosody", in Proceedings
of the ISCA Workshop on Speech and Emotion) oder (Tickle A. (2000) "English and Japanese
Speaker's Emotion
Vocalisations and Recognition: a Comparison highlighting Vowel Quality", ISCA Workshop on
Speech and Emotion, Belfast 2000), welche Experimente ausführten, in
welchen Amerikaner versuchen mussten, die Emotion entweder von einem
anderen Amerikaner oder von einem Japaner nur unter Verwendung von
akustischen Informationen zu erkennen (die Äußerungen waren bedeutungslos,
also waren keine semantischen Informationen vorhanden).
-
Japaner
wurden ebenfalls gebeten zu versuchen, zu entscheiden, welche Emotionen
andere Japaner oder Amerikaner zu übermitteln versuchten. Zwei
Resultate kamen aus der Studie heraus: 1) es gab nur einen geringen
Unterschied zwischen dem Versuchsergebnis, die übermittelten Emotionen zu erkennen,
von Menschen mit der gleichen Sprache oder mit der anderen Sprache,
und dies gilt für
Japanische sowie für
amerikanische Testpersonen; 2) die Testpersonen waren absolut betrachtet
weit entfernt von vollkommenen Erkennern: die beste Erkennungswertung
war 60 Prozent. (Dieses Resultat kann zum Teil durch die Tatsache
erklärt werden,
dass die Testpersonen gebeten wurden, unsinnige Äußerungen zu äußern, welches
ziemlich unnatürlich
ist, aber wird durch Studien bestätigt, bei welchen Leute gebeten
wurden, semantisch neutrale, aber bedeutungsvolle Sätze zu äußern (Burkhart
und Sendlmeier (2000), oben zitiert).
-
Das
erste Resultat zeigt an, dass die Aufgabe, einer Maschine die Fähigkeit
zu verleihen, einen Affekt mit der Genauigkeit eines menschlichen
Sprechers sowohl mit bedeutungsloser Sprache als auch in einer Weise
auszudrücken,
die durch Menschen von unterschiedlichen Kulturen erkennbar ist,
in der Theorie lösbar
ist. Das zweite Resultat zeigt, dass ein vollkommenes Resultat nicht
erwartet werden kann. Die Tatsache, dass die Menschen nicht so gut
sind, wird hauptsächlich
durch die Tatsache erklärt,
dass mehrere Emotionszustände sehr ähnliche
physiologische Korrelate und folglich akustische Korrelate aufweisen.
In den tatsächlichen
Situationen bewältigen
die Menschen die Mehrdeutigkeiten, indem sie den Kontext und/oder
andere Modalitäten verwenden.
In der Tat haben einige Experimente gezeigt, dass die multimodale
Natur des Ausdrückens
eines Affekts zu einem MacGurk-Effekt für Emotionen führen kann
(Massaro D., (2000) "Multimodal
Emotion Perception: analogous to Speech Processes", ISCA Workshop on
Speech and Emotion, Belfast 2000) und dass unterschiedliche Kontexte
Leute verleiten können,
die gleiche Intonation als Ausdruck unterschiedlicher Emotionen
für jeden
Kontext zu interpretieren (Cauldwell R. (2000) "Where did the Anger go? The Role of
Context in interpreting Emotions in Speech.", ISCA Workshop on Speech and Emotion).
Diese Entdeckungen zeigen an, dass es nicht notwendig ist, eine
Maschine Äußerungen
erzeugen zu lassen, welche feine Unterscheidungen treffen; nur die
grundlegendsten Affekte sollten untersucht werden.
-
Eine
Anzahl von Experimenten, welche Computer-gestützte Techniken der Soundmanipulation
anwenden, wurden durchgeführt,
um zu erforschen, welcher besondere Aspekt der Sprache Emotionen
am herausragendsten reflektiert. (Murray I. R., Arnott J. L., (1993) "Towards a Simulation
of Emotion in Synthetic Speech: a Review of the Literature on Human
Vocal Emotion",
JASA 93 (2), pp. 1097–1108;
Banse und Scherer, 1996; Burkhardt und Sendlmeier, 2000; Williams
und Stevens, 1972, oben zitiert) stimmen im allgemeinen alle darin überein,
dass die entscheidendsten Aspekte jene sind, welche sich auf den
Satzrhythmus beziehen: die Kontur der Tonhöhe (oder von f0), die Tonintensitätskontur
und das Timing der Äußerungen.
Einige neuere Studien zeigten, dass die Sprachqualität (Gobl
C., Chasaide A. N. (2000) "Testing
Affective Correlates of Voice Quality through Analysis und Resynthesis", in Proceedings
of the ISCA Workshop on Emotion and Speech) und bestimmte Koartikulationsphänomene (Kienast
M., Sendlmeier W. (2000) "Acoustical
Analysis of Spectral and Temporal Changes in Emotional Speech", in Proceedings
of the ISCA Workshop on Emotion and Speech) sind auch mit bestimmten
Emotionen angemessen korreliert.
-
DIE ERZEUGUNG
DER CARTOON-EMOTIONSSPRACHE
-
In
dem oben genannten Kontext führte
der Anmelder eine beträchtliche
Forschung auf dem Gebiet der Erzeugung der Cartoon-Emotionssprache
durch. (Jedoch umfasst der Anwendungsbereich der vorliegenden Erfindung
alle Sprachformen, einschließlich
der natürlichen
menschlichen Sprache.) Das Ziel unterschied sich deutlich von dem
Ziel der meisten existierenden Arbeiten auf dem Gebiet der synthetischen
Emotionssprache. Während
es traditionell das Ziel war (siehe, Cahn J. (1990) "The Generation of
Affect in Synthesized Speech", Journal
of the I/O Voice American Society, 8: 1–19, Iriondo I., et al. (2000) "Validation of an
Acoustical Modelling of Emotional Expression in Spanish using Speech
Synthesis Techniques",
in Proceedings of ISCA Workshop on Speech and Emotion, Edgington
M. D., (1997) "Investigating
the Limitations of Concatenative Speech Synthesis", in Proceedings
of EuroSpeech'97,
Rhode, Greece, Iida et al. 2000), Erwachsenen-artige natürlich vorkommende
Emotionssprache zu produzieren, war es das Ziel der Studie, einem
jungen Geschöpf
die Fähigkeit zu
verleihen, seine Emotionen in übertriebener
Art oder Cartoon-Art auszudrücken,
indem es unsinnige Worte verwendet (dieses ist notwendig, weil Experimente
mit Robotern durchgeführt
wurden, welche eine Sprache erlernen mussten: diese vorlinguistische
Fähigkeit,
nur Intonation zu verwenden, um grundlegende Emotionen auszudrücken, dient
dem Bootstrap-Erlernen. Die Sprache musste lebhaft klingen, durfte
sich nicht wiederholen und musste dem Plappern von Kleinkindern ähnlich sein.
-
Zusätzlich mussten
die Algorithmen so einfach wie möglich
sein, mit so wenig Parametern wie möglich: kurz, was gesucht wurde,
war das Minimum, welches das Übertragen
von Emotionen mit Satzrhythmusvariationen ermöglicht. Außerdem musste die Sprache sowohl
von hoher Qualität
als auch preiswert mit einem Computer zu erzeugen sein (Robotergeschöpfe haben
normalerweise nur sehr knappe Ressourcen). Aus diesen Gründen wurde
entschieden, als Basis einen Verkettungssprachsynthesizer zu verwenden
(Dutoit T. und Leich H. (1993) "MBRPSOLA:
Text-to-Speech Synthesis based on a MBE Resynthesis of the Segments Database", Speech Communication),
wobei die MBROLA-Software im Internet auf der Webseite: http://tcts.fpms.ac.be/synthesis/mbrola.html,
frei verfügbar
ist, welche eine Verbesserung der traditionelleren PSOLA-Techniken
ist (sie produziert weniger Verzerrungen, wenn die Tonhöhe manipuliert
wird). Der Preis der Qualität
ist, dass das Signal sehr wenig gesteuert kann, aber dieses ist
mit der Forderung nach Einfachheit kompatibel.
-
Wegen
aller dieser Restriktionen wurde bestimmt, bis hierher nur fünf Emotionszustände zu untersuchen,
welche entsprechen, einem Ruhezustand und einem Zustand für jede der
vier Regionen, welche durch die zwei Dimensionen Erregung und Valenz
definiert sind: Zorn, Traurigkeit, Glück, Wohlbefinden.
-
Wie
oben genannt, konzentrierten sich die vorhandenen Arbeiten auf die
Erwachsenenartige, natürlich klingende
Emotionssprache, und die meisten Projekte nahmen nur eine Sprache
in Angriff. Viele von ihnen verwendeten die Formantsynthese als
Basis (cf. Cahn, 1990 "The
Generation of Affect in Synthesised Speech", Journal of the I/O Voice American
Society, 8: 1–19;
Murray E., Arnott J. L., (1995) "Implementation
and Testing of a System for producing Emotion-By-Rule in Synthetic
Speech", Speech
Communication, 16 (4), pp. 369-390; Burkhardt und Sendlmeier, 2000
oben zitiert), hauptsächlich
weil sie eine detaillierte und umfangreiche Steuerung des Sprachsignals
ermöglicht:
man kann die Sprachqualität,
die Tonhöhe,
die Tonintensität,
die spektrale Energieverteilung, das Verhältnis der Oberwellen zum Rauschen
oder die Artikulationsgenauigkeit steuern, welches das Modellieren
vieler in der Emotionssprache auftretender Koartikulationseffekte
ermöglicht.
Die Nachteile der Formantsynthese sind, dass die Qualität der produzierten
Sprache nicht zufriedenstellend bleibt (die Stimmen sind häufig noch
nicht ganz natürlich).
Außerdem
sind die hierfür
entwickelten Algorithmen kompliziert und erfordern das Steuern vieler
Parameter, welches ihre Feineinstellung ziemlich unpraktisch macht
(siehe Cahn, 1990, oben zur Diskussion zitiert). Anders als diese
Arbeiten beschrieb (Breazal, 2000 "Sociable Maschines: Expressive Social
Exchange between Humans and Robots, PhD Thesis, MIT AI Lab) einen
Roboter "Kismet", welcher das Erzeugen
von bedeutungsloser Emotionssprache ermöglicht. Jedoch wie bei der
Arbeit von Cahn stützt
sich der Roboter weitestgehend auf die Anwendung eines kommerziellen
Sprachsynthesizers ab, dessen viele Parameter häufig komplexe Parameter sind (beispielsweise
die Spezifikation der Tonhöhengrundlinie
eines Satzes) und in einer undokumentierten Weise implementiert
sind. Folglich ist diese Vorgehensweise kaum reproduzierbar, wenn
man ein anderes Sprachsynthesesystem als Grundlage verwenden will.
Andererseits ist der vom Anmelder verwendete und unten beschriebene
Algorithmus vollständig
spezifiziert, und kann direkt mit jedem möglichen PSOLA-basierten System
verwendet werden (außerdem
kann die aktuell verwendete Software frei heruntergeladen werden,
siehe oben).
-
Ein
anderer Nachteil der Arbeit von Breazal ist, dass der verwendete
Synthesizer Formant-basiert ist, welches nicht den beabsichtigten
Restriktionen entspricht.
-
Wegen
ihrer deutlich besseren Qualität
gewannen Verkettungssprachsynthesizer in den letzten Jahren an Popularität, und einige
Forscher versuchten, sie zum Erzeugen von Emotionssprache zu verwenden. Dieses
ist eine Herausforderung und deutlich schwieriger als mit der Formantsynthese,
da nur die Tonhöhenkontur,
die Tonintensitätskontur
und die Dauer der Phoneme gesteuert werden können (und selbst dann gibt es
enge Restriktionen bei dieser Steuerung). Nach Kenntnis des Anmelders
wurden zwei Vorgehensweisen in der Literatur dargestellt. Die erste
Vorgehensweise, wie beispielsweise beschrieben in (Iida et al.,
2000 "A Speech Synthesis
System with Emotion for assisting Communication", ISCA Workshop on Speech and Emotion),
benutzt eine Sprachdatenbank für
jede Emotion als Basis der vorher aufgezeichneten, in der Synthese zu
verkettenden Segmente. Dieses liefert zufriedenstellende Resultate,
aber ist ziemlich unpraktisch, wenn man beispielsweise die Stimme ändern oder
neue Emotionen hinzufügen
oder sogar den Grad von Emotionen steuern will.
-
Die
zweite Vorgehensweise (siehe beispielsweise Edgington M. D., "Investigating the
Limitations of Concatenative Speech Synthesis", Proceedings of EuroSpeech'97, Rhode, Greece)
erstellt Datenbanken aus menschlich erzeugter Emotionssprache, berechnet
die Tonhöhenkonturen
und die Tonintensitätskonturen,
und wendet sie bei den zu erzeugenden Sätzen an. Dieses verursacht
einige Abgleichprobleme, welche unter Anwendung von syntaktischen Ähnlichkeiten
zwischen den Sätzen
teilweise gelöst
werden. Jedoch zeigte Edgington, dass dieses Verfahren ziemlich
unbefriedigende Resultate lieferte (indem Sprachenden unnatürlich sind,
und Emotionen nicht sehr gut von den menschlichen Zuhörern erkannt
werden).
-
Schließlich können diese
zwei Verfahren bei Cartoons nicht leicht angewendet werden, da es
große Schwierigkeiten
gibt, Sprachdatenbanken aus übertriebenen
Babystimmen oder Cartoon-Babystimmen zu bilden.
-
Die
in der Erfindung angenommene Vorgehensweise ist – von einer Algorithmus-Perspektive aus betrachtet – vollständig generativ
(sie beruht nicht auf dem Aufzeichnen von menschlicher Sprache,
welche als Eingang dient), und verwendet eine Verkettungssprachsynthese
als Basis. Sie erwies sich bei dem Ausdrücken von Emotionen so leistungsfähig wie
die Formantsynthese, jedoch mit einfacheren Steuerungen und einer
lebensechteren Signalqualität.
-
EIN EINFACHER
UND VOLLSTÄNDIGER
ALGORITHMUS
-
Ein
durch den Anmelder entwickelter Algorithmus besteht aus dem Erzeugen
eines bedeutungslosen Satzes und dem Spezifizieren der Tonhöhenkontur
und der Dauer der Phoneme (der Rhythmus des Satzes). Der Einfachheit
halber wird nur ein Ziel pro Phonem für die Tonhöhe spezifiziert, welches häufig ausreichend sein
kann.
-
Es
ist möglich,
eine Feinsteuerung der Tonintensitätskontur vorzusehen, aber dieses
ist nicht immer notwendig, da die Manipulation der Tonhöhe eine
Hörillusion
von Tonintensitätsvariationen
verursachen kann. So können
gute Resultate mit alleiniger Steuerung der Gesamtlautstärke von
Sätzen
erzielt werden.
-
Das
Programm erzeugt eine Datei, wie unten in Tabelle I dargestellt,
welche in den MBROLA-Sprachsynthesizer eingegeben wird.
-
Tabelle I: Beispiel einer
durch ein Sprachsyntheseprogramm erzeugten Datei
-
- 1 448 10 150 80 158 ;; Bedeutung: Phonem "1" mit einer Dauer von 448 ms
- ;; bei 10 Prozent von 448 ms
- ;; Versuch, 150 Hz bei 80 Prozent zu erreichen
- ;; Versuch, 158 Hz zu erreichen
- 9'' 557 80 208
- b 131 80 179
- c 77 20 200 80 229
- o 405 80 169
- o 537 80 219
- v 574 80 183.0
- a 142 80 208.0
- n 131 80 221.0
- i 15 80 271.0
- H 117 80 278.0
- E 323 5 200 300 300 80 378.0 100 401
-
Die
Idee des Algorithmus ist, zuerst einen aus Zufallsworten bestehenden
Satz zu erzeugen, wobei jedes Wort aus Zufallssilben besteht (vom
Typ CV oder CCV). Zuerst ist die Dauer aller Phoneme konstant und die
Tonhöhe
jedes Phonems ist konstant, gleich einem vorherbestimmten Wert (zu
welchem das Rauschen addiert wird, welches vorteilhaft ist, um die
Sprache natürlich
klingen zu lassen. Viele unterschiedliche Rauscharten wurden getestet,
und es wurde festgestellt, dass der verwendete Rauschtyp keine bedeutenden
Unterschiede verursacht; für
das unten beschriebene Wahrnehmungsexperiment wurde Gaußsches Rauschen verwendet).
Die Tonhöhen- und Tondauerinformationen
des Satzes werden dann geändert,
um einen bestimmten Affekt zu erzeugen. Verzerrungen beruhen auf
dem Entscheiden, dass eine Anzahl von Silben betont wird, und auf
dem Anwenden einer bestimmten Betonungskontur auf diesen Silben
sowie einiger Tondauermodifikationen. Auch werden an allen Silben
eine bestimmte vorgegebene Tonhöhenkontur
und Tondauerdeformation angewendet.
-
Für jedes
Phonem wird nur ein Tonhöhenziel
angegeben, welches bei 80 Prozent der Phonemdauer fixiert wird.
-
Die
oben genannte Europäische
Patentanmeldung, welche als Priorität für die vorliegende Anmeldung dient,
zeigt in den 3 und 4 ein
Programm zum Erzeugen eines mittels einer Sprachsynthese zu äußernden Satzes,
welche auf dem oben genannten Algorithmus basiert. Dieses gleiche
Programm wird hier in den 1a und 1b gezeigt,
wobei letztere die Fortsetzung der erstgenannten Figur ist.
-
(Wörter in
Großbuchstaben
bezeichnen die Parameter des Algorithmus, welche für jede Emotion
eingestellt werden müssen).
-
Einige
Anmerkungen können
hinsichtlich dieses Algorithmus gemacht werden. Zuerst ist es nützlich, Wörter zu
haben, anstatt sich nur mit Zufallssequenzen von Silben zu beschäftigen,
weil es ein zu häufiges Setzen
von Akzenten auf angrenzende Silben vermeidet. Außerdem ermöglicht er
das einfachere Ausdrücken der
am letzten Wort durchgeführten
Arbeitsvorgänge.
Typischerweise hängt
die maximale Anzahl von Wörtern in
einem Satz (MAXWORDS) nicht von einem bestimmten Affekt ab, sondern
ist eher ein Parameter, welcher frei verändert werden kann. Einen Schlüsselaspekt
dieses Algorithmus bilden die stochastischen Teile: einerseits ermöglichen
sie jedes Mal das Erzeugen einer anderen Äußerung für einen gegebenen Parametersatz (hauptsächlich aufgrund
der Zufallswortanzahl, der Zufallsbestandteile von Silbenphonemen
oder der probabilistischen Akzentzuordnung); andererseits sind Details
wie das Hinzufügen
von Rauschen zu der Tondauer und der Tonhöhe von Phonemen (siehe Zeile
14 und 15 des in 1 gezeigten Programms,
bei welchem Zufall(n) "Zufallszahl
zwischen 0 und n" bedeutet)
vorteilhaft für
die Natürlichkeit
der Vokalisierungen (wenn sie unveränderlich bleibt, dann nimmt
man deutlich wahr, dass dieses eine sprechende Maschine ist). Schließlich werden
Akzente implementiert, indem man nur die Tonhöhe und nicht die Lautstärke ändert. Dennoch
erhält man
zufriedenstellende Resultate, da in der menschlichen Sprache eine
Lautstärkenzunahme
mit einer Tonhöhenzunahme
korreliert ist. Dieses erfordert manchmal ein Übertreiben der Tonhöhenmodulation,
aber dieses ist in Ordnung, da, wie früher erklärt, es nicht immer ein Ziel
ist, die Art und Weise, wie Menschen Emotionen ausdrücken originalgetreu
zu reproduzieren, sondern eine lebhafte und natürliche Karikatur der Art und Weise,
wie sie Emotionen ausdrücken,
zu produzieren (Cartoon-artig).
-
Schließlich wird
dem Algorithmus ein letzter Schritt hinzugefügt, um eine Stimme zu erhalten,
welche für
ein junges Geschöpf
typisch ist: die Sounddateiabtastrate wird übersteuert, indem man sie auf
30000 Hz oder 35000 Hz, verglichen mit den durch MBROLA produzierten
16000 Hz, einstellt (dieses ist einem schnelleren Abspielen der
Datei gleichwertig). Selbstverständlich
wird sie zunächst
in dem zu MBROLA gesandten Programm verzögert, um den Sprachrate normal
zu halten. Nur die Qualität und
Tonhöhe
der Sprache werden modifiziert. Dieser letzte Schritt ist vorzuziehen,
da keine Kindersprachdatenbank für
MBROLA existiert (welches verständlich
ist, da die Herstellung der Datenbank mit einem Kind schwierig ist).
Folglich wurde eine weibliche Erwachsenenstimme gewählt.
-
Nach
der ausführlichen
Beschreibung des Algorithmus beinhaltet die nachfolgende Tabelle
II beispielhafte Parameterwerte, welche für folgende fünf Affekte
erhalten werden: Ruhe, Zorn, Traurigkeit, Glück, Wohlbefinden.
-
Diese
Parameter wurden erhalten, indem man zuerst Studien mit einer Beschreibung
der akustischen Korrelate jeder Emotion betrachtete (beispielsweise
Murray und Arnott 1993, Sendlmeier und Burkhardt 2000, oben zitiert),
dann kohärente
Anfangswerte für
die Parameter ableitete, und sie von Hand und durch Ausprobieren
solange modifizierte, bis sie ein zufriedenstellendes Resultat ergaben.
Eine Bewertung der Qualität
wird im folgenden Abschnitt vorgenommen.
-
Tabelle
II: Parameterwerte für
verschiedene Emotionen
-
-
VALIDIERUNG MIT TESTPERSONEN
-
Um
den in den oben genannten Abschnitten beschriebenen Algorithmus
zu bewerten, wurde ein Experiment durchgeführt, in welchem Testpersonen
gebeten wurden, die wahrgenommene Emotion beim Hören einer durch das System
erzeugten Vokalisierung zu beschreiben. Einige Soundbeispiele sind
auf der zugehörigen
Webseite "www.csl.sony.fr/py/" vorhanden. Genauer
ausgedrückt,
hörte jede
Testperson zuerst 10 Vokalisierungsbeispiele, wobei bei jedem Beispiel
die Emotion mit einer Zufallsauswahl bestimmt wurde, so dass sie
sich an die Systemsprache gewöhnten.
Dann wurde ihnen eine Sequenz aus 30 Vokalisierungen (unüberwachte
Folge) präsentiert,
welche jedes Mal einer mit einer Zufallauswahl bestimmten Emotion
entsprach, und wurden sie gebeten, eine Wahl zwischen "Ruhe", "Zorn", "Traurigkeit", "Wohlbefinden" und "Glück" zu treffen.
-
Sie
konnten jedes Beispiel nur einmal hören. In einem zweiten Experiment
mit unterschiedlichen Testpersonen wurden den Testpersonen zunächst vier überwachte
Beispiele von jeder Emotion gegeben, welches bedeutete, dass Ihnen
eine Vokalisierung zusammen mit einem Label der beabsichtigten Emotion
präsentiert wurde.
Wieder wurden ihnen 30 Vokalisierungen präsentiert, welche sie mit einem
der oben genannten Worte beschreiben mussten. Acht aufrichtige erwachsene
Testpersonen nahmen an jedem Experiment teil: drei französische Testpersonen,
eine englische Testperson, eine deutsche Testperson, eine brasilianische
Testperson und zwei japanische Testpersonen (keine von ihnen war
mit der Forschung vertraut oder hatte ein spezielles Wissen über die
akustischen Korrelate der Emotion in der Sprache). Die Tabelle III
zeigt unten die Resultate für
das Experiment mit der unüberwachten
Folge. Die Zahl in (ZeileEm, SpalteEm) zeigt den Prozentsatz von Zeiten
an, bei welchen eine Vokalisierung, welche die ZeileEm-Emotion repräsentieren
sollte, als SpalteEm-Emotion wahrgenommen wurde. Beispielsweise
kann in der Tabelle III beobachtet werden, dass 76 Prozent der Vokalisierungen,
welche die Traurigkeit repräsentieren
sollten, effektiv als solche wahrgenommen wurden.
-
Die
Resultate des Experiments mit der unüberwachten Folge müssen mit
den Experimenten verglichen werden, welche mit menschlicher Sprache
anstatt mit Maschinensprache durchgeführt wurden. Diese zeigen, dass
bei ähnlichen
Einstellungen, wie in (Tickle A. 2000 "English and Japanese Speaker's Emotion Vocalisations
and Recognition: a Comparison highlighting Vowel Quality", ISCA Workshop on
Speech and Emotion Recognition, Belfast 2000), bei welchen Menschen
gebeten wurden, eine unsinnige Emotionssprache zu erzeugen, Menschen
bestenfalls 60 Prozent Erfolg haben und am häufigsten weniger. Hier wird
beobachtet, dass das Durchschnittsresultat 57 Prozent beträgt, welches
gut mit der menschlichen Leistung vergleichbar ist. Bei näherer Betrachtung
der Resultate kann gesehen werden, dass die Fehler meistens keine "schlimmen" Fehler sind, besonders
hinsichtlich des Erregungsgrades in der Sprache: Glück wird
am häufigsten
mit Zorn (beide mit Erregung) verwechselt, und Ruhe wird am häufigsten
mit Traurigkeit und Wohlbefinden (alle ohne Erregung) verwechselt.
Tatsächlich
werden weniger als 5 Prozent Fehler bei dem Erregungsgrad gemacht. Schließlich kann
beobachtet werden, dass viele Fehler den ruhigen oder neutralen
Affekt betreffen. Dieses führte
zu einem zweiten Experiment mit einer unüberwachten Folge, welches dem
hier dargestellten Experiment ähnlich
ist, mit der Ausnahme, dass der ruhige Affekt entfernt wurde.
-
Es
wurde ein Durchschnittserfolg von 75 Prozent erreicht, welches eine
große
Steigerung darstellt und viel besser als die menschliche Leistung
ist. Dieses kann zum Teil durch die Tatsache erklärt werden,
dass hier die akustischen Korrelate der Emotionen übertrieben
sind. Die hier dargestellten Resultate sind denen ähnlich, welche
beschrieben werden in (Breazal 2000), welches beweist, dass das
Verwenden eines Verkettungssynthesizers mit viel wenigeren Parametern
noch ermöglicht,
Emotionen zu übertragen
(und liefert im allgemeinen lebensechtere Soundarten).
-
Tabelle
III: Verwechslungsmatrix für
eine unüberwachte
Folge
-
Eine
Prüfung
der überwachten
Folge zeigt, dass sich bei Präsentation
von nur sehr wenigen Vokalisierungen für ihre beabsichtigte Emotion
(genau vier Vokalisierungen für
jede Emotion) die Resultate stark erhöhen: jetzt wird ein Erfolg
mit 77 Prozent erzielt. Wieder sind die wenigen Fehler nicht "schlimm". Auf ähnliche Weise
wurde ein Experiment mit Entfernung des ruhigen Affektes durchgeführt, welches
einen Durchschnittserfolg von 89 Prozent ergab. Diese Überwachung
kann bei digitalen Haustieren ziemlich leicht implementiert werden,
da viele von ihnen beispielsweise Kombinationen von Farbleuchtdioden
verwenden, um ihre "Emotionen" auszudrücken, und
das aktuelle Experiment zeigt, dass es ausreichend ist, den Roboter
einige Male visuell wahrzunehmen, während er emotionale Sätze äußert, um
später
seine beabsichtigte Emotion erkennen zu können, nur indem man ihm zuhört.
-
Tabelle
IV: Verwechslungsmatrix für
die überwachte
Folge
-
Die 2 zeigt,
wie diese Emotionen in einem Diagramm positioniert sind, welches
einen "Emotionsraum" darstellt, in welchem
die Parameter "Valenz" und "Erregung" jeweils entlang
vertikalen und horizontalen Achsen 2 und 4 ausgedrückt sind.
Die Valenzachse reicht von negativen bis zu positiven Werten, während die Erregungsachse
von niedrigen bis zu hohen Werten reicht. Der Kreuzungspunkt 0 dieser
Achsen befindet sich in der Mitte des Diagramms und entspricht einem
ruhigen oder neutralen Zustand. Von diesem Punkt aus werden vier
Quadranten definiert, wobei jeder einen Emotionszustand wie folgt
enthält:
Glück/Preisen
(Quadrant Q1), gekennzeichnet durch positive Valenz und hohe Erregung,
Wohlbefinden/Beruhigen (Quadrant Q2), gekennzeichnet durch positive
Valenz und niedrige Erregung, Traurigkeit (Quadrant Q3), gekennzeichnet
durch negative Valenz und niedrige Erregung, und Zorn/Verwarnen
(Quadrant Q4), gekennzeichnet durch negative Valenz und hohe Erregung.
-
BEVORZUGTE
AUSFÜHRUNGSFORMEN
DER VORLIEGENDEN ERFINDUNG
-
Das
Verfahren und die Vorrichtung gemäß der Erfindung sind eine Entwicklung
der oben genannten Konzepte. Die Idee beruht auf der Steuerung zumindest
eines von Tonhöhenkontur,
Tonintensitätskontur
und Rhythmus einer durch Sprachsynthese erzeugten Phrase. Die erfinderische
Vorgehensweise ist verhältnismäßig vollständig und
kann von anderen Arbeitern leicht reproduziert werden. Insbesondere
werden die bevorzugten Ausführungsformen
aus frei verfügbaren
Softwaremodulen entwickelt, welche gut dokumentiert sind, einfach
anzuwenden sind, und für
welche es viele gleichwertige Technologien gibt. Dementsprechend
sind die durch diese Ausführungsformen
der Erfindung erzeugten Module total transparent.
-
Die
Ausführungsformen
ermöglichen
eine vollständige
Steuerung, oder zumindest einen hohen Steuerungsgrad der Tonhöhenkontur,
des Rhythmus (Dauer von Phonemen), etc..
-
Konzeptionell
ist die Vorgehensweise allgemeiner als in der früheren Europäischen Patentanmeldung des
Anmelders, zu welcher Priorität
beansprucht wird.
-
Die
Vorgehensweise gemäß der vorliegenden
Erfindung basiert auf dem Betrachten einer Phrase als eine Folge
von Silben. Die Phrase kann ein Sprachausdruck in einer anerkannten
Sprache sein, oder kann einfach aus bedeutungslosen Äußerungen
bestehen. Für
jede Silbe ist es möglich,
die Kontur der Tonhöhe
(f0) vollständig
zu steuern, optional die Tonintensitätskontur (Volumen), und die
Dauer der Silbe. Jedoch ist zumindest die Steuerung der Tonintensität nicht
notwendig, da eine Modifikation bei der Tonhöhe den Eindruck einer Modifikation
bei der Tonintensität
vermitteln kann.
-
Das
Problem besteht dann darin, diese Konturen – Tonhöhenkontur, Dauer und vielleicht
Tonintensitätskontur – während eines
ganzen Satzes zu bestimmen, um eine Intonation zu erzeugen, welche
einer gegebenen Emotion entspricht.
-
Das
der Lösung
zugrunde liegende Konzept ist, ausgehend von einer Phrase mit einer
bestimmten Kontur (ID), einer bestimmten Intensität und einer
bestimmten Dauer für
jede Silbe zu starten. Diese Bezugsphrase kann entweder von einem
Sprachsynthesizer für
eine anerkannte Sprache erzeugt werden, welcher eine Ausgangskontur
(f0), eine Ausgangsdauer (t) und vielleicht eine Ausgangsintensität verleiht.
Oder kann alternativ dazu aus bedeutungslosen Äußerungen bestehen, wie beispielsweise
aus Geplapper von Kleinkindern. In diesem Fall wird zunächst zugeordnet,
eine "flache" Tonhöhenkontur
(f0) mit einem bestimmten Ausgangswert, eine "flache" Tonintensitätskontur mit einem bestimmten
Ausgangswert, und eine "feste" Dauer (t) mit einem
bestimmten Ausgangswert. Diese Charakteristiken werden in einem
spezifischen Format dargelegt, welches von einem Sprachsynthesizer
gelesen werden kann.
-
Die
zu einem Sprachsynthesizer gelieferten Daten werden gemäß einem
bestimmten Protokoll formatiert. Beispielsweise kann jede zu synthetisierende
Silbe wie folgt kodiert werden (im Fall der Silbe "be", gekennzeichnet
durch eine Dauer und fünf
aufeinander folgende Tonhöhenwerte
innerhalb dieser Dauer):
Kennzeichnung der Silbe: "be"; Dauer (Millisekunden)
t1 = 100; Tonhöhendaten
(Hz) – erster
Teil P1 = 80, zweiter Teil P2 = 100, dritter Teil P3 = 120, vierter
Teil P4 = 90, fünfter
Teil P5 = 230.
-
Die
oben genannten Daten werden einfach in einen Rahmen aufgenommen,
indem man die Parameter kodiert: be; 100, 80, 100, 120, 90, 230,
wobei jeder Parameter durch den Synthesizer entsprechend dem Protokoll
gekennzeichnet ist.
-
Die 3 zeigt
die unterschiedlichen Stufen, in welchen diese digitalen Daten in
einen synthetisierten Soundausgang umgesetzt werden.
-
Zunächst wird
eine Sprachnachricht in Form einer Folge aus zu äußernden Silben komponiert.
Die Nachricht kann aus verständlichen
Wörter
bestehen, welche grammatikalische Sätze bilden, welche eine Bedeutung
in einer gegebenen anerkannten Sprache übertragen, oder kann aus bedeutungslosen
Soundarten bestehen, wie beispielsweise aus Geplapper, aus tierartigen
Soundarten, oder aus total frei erfundenen Soundarten. Die Silben
werden im oben beschriebenen digitalen Datenformat in einer Vokalisierungsdatei 10 kodiert.
-
Ein
Decoder 12 liest die aufeinander folgenden Silbendaten
von der Datei 10 aus.
-
Die 4a zeigt
graphisch, wie diese Daten durch den Dekoder 12 in einem
Koordinatenrasterfeld mit der Tonhöhengrundfrequenz (in Hertz)
entlang der Ordinate und der Zeit (in Millisekunden) entlang der
Abszisse angeordnet werden. Der Bereich des Rasterfeldes wird in
fünf Spalten
geteilt, entsprechend jeder der fünf jeweiligen Dauern, wie durch
Pfeillinien angezeigt. In die Mitte jeder Spalte wird der Tonhöhenwert
positioniert, wie durch die entsprechenden Tonhöhendaten gegenüber der
Skala auf der Ordinate definiert.
-
Die
Silbendaten werden zu einem Interpolator 14 übertragen,
welcher aus den fünf
elementaren Tonhöhenwerten
P1–P5
eine geschlossene Folge aus interpolierten Tonhöhenwerten mit Standardinterpolationstechniken
erzeugt. Das Resultat ist eine verhältnismäßig glatte Kurve der Entwicklung
der Tonhöhe über der
Dauer von 100 ms der Silbe "be", wie in 4b dargestellt.
Der Prozess wird für
alle eingegebenen Silbendaten wiederholt, um eine kontinuierliche
Tonhöhenkurve über aufeinander
folgenden Silben der Phrase zu erzeugen.
-
Die
folglich durch den Interpolator erzeugte Tonhöhenwellenform wird geliefert
an einen Audiofrequenzsoundprozessor 16, welcher ein entsprechendes
moduliertes Amplitudenaudiosignal erzeugt. Der Soundprozessor kann
dem finalen Audiosignal auch ein Zufallsrauschen hinzufügen, um
dem synthetisierten Sound einen realistischeren Effekt zu verleihen,
wie oben erklärt.
Dieses finale Audiosignal wird an einen Audioverstärker 18 geliefert,
bei welchem sein Niveau auf eine geeignete Lautstärke angehoben
wird, und dann von einem Lautsprecher 20 ausgegeben wird,
welcher auf diese Weise die synthetisierten Sounddaten der Vokalisierungsdatei 10 reproduziert.
-
Wenn
die Vokalisierungsdatei 10 verständliche Phrasen enthält, umfasst
ein Teil der mit den Silben verbundenen Silbendaten normalerweise
eine Anzeige, aufgrund welcher Silben akzentuiert werden können, um
eine natürlichere
Soundübertragung
zu ermöglichen.
-
In
einem Normalfall entsprechen die in den Silbendaten enthaltenen
Tonhöhenwerte
einer "neutralen" Sprachform, das
heißt,
sie sind nicht mit einer wahrnehmbaren Emotion aufgeladen.
-
Die 5 ist
ein Blockdiagramm, welches in Funktionsbezeichnungen zeigt, wie
ein Emotionsgenerator 22 der bevorzugten Ausführungsform
den in 3 dargestellten Synthesizer 1 integriert.
-
Der
Emotionsgenerator 22 funktioniert, indem er selektiv die
Operatoren bei von Vokalisierungsdatei 10 ausgelesenen
Silbendaten anwendet. Abhängig
von ihrem Typ können
diese Operatoren entweder die Tonhöhendaten (Tonhöhenoperator)
oder die Silbendauerdaten (Daueroperator) modifizieren. Diese Modifikationen
finden stromaufwärts
von dem Interpolator 14, beispielsweise vor dem Dekoder 12 statt,
so dass die Interpolation an den von dem Operator modifizierten
Werten durchgeführt
wird. Wie unten erklärt,
besteht die Modifikation darin, dass eine neutrale Sprachform selektiv
in eine Sprache transformiert wird, welche eine gewählte Emotion
(Traurigkeit, Ruhe, Glück,
Zorn) in einer gewählten
Quantität überträgt.
-
Die
elementaren Operatorformen werden in einer Operatorsatzbibliothek 24 gespeichert,
in welcher auf sie durch eine Operatorsatzkonfigurationseinheit 26 selektiv
zugegriffen werden kann. Letztere dient dazu, die Operatoren entsprechend
aktuellen Anforderungen vorzubereiten und zu parametrisieren. Zu
diesem Zweck wird eine Operatorparametrisiereinheit 28 geschaffen,
welche die Parametrisierung der Operatoren entsprechend folgender
Forderungen bestimmt: i) der Stimme zu verleihende Emotion (Ruhe,
Traurigkeit, Glück, Zorn,
etc.), ii) möglicherweise
Grad – oder
Intensität – der anzuwendenden
Emotion, und iii) Silbenkontext, wie nachfolgend erklärt wird.
Die Emotion und der Emotionsgrad werden der Operatorparametrisiereinheit 28 durch
eine Emotionsselektionsschnittstelle 30 angewiesen, welche
für einen
Nutzer 32 zugängliche
Eingänge bildet.
Die Emotionsselektionsschnittstelle kann in Form einer Computerschnittstelle
mit On Screen-Menüs und
Icons ausgebildet sein, und dem Benutzer 32 erlauben, alle
notwendigen Emotionscharakteristiken und andere Betriebsparameter
anzuzeigen.
-
Im
Beispiel ist der operatorsensitive Silbenkontext: i) die Position
der Silbe in einer Phrase, da einige Operatorsätze nur bei ersten und letzten
Silben der Phrase angewendet werden, ii) ob sich die Silben auf
verständliche
Wortsätze
oder auf unverständliche
Soundarten (Geplapper, etc.) beziehen, und iii) sofern der Fall auftritt,
ob oder ob nicht einer betrachteten Silbe erlaubt wird, akzentuiert
zu werden, wie in der Vokalisierungsdatei 10 angezeigt
ist.
-
Zu
diesem Zweck wird eine Identifizierungseinheit 34 für erste
und letzte Silben und eine Erfassungseinheit 36 für eine autorisierte
Silbenakzentuierung geschaffen, wobei beide einen Zugang zur Vokalisierungsdateieinheit 10 besitzen
und die Operatorparametrisiereinheit 28 über passende
kontextsensitive Parameter informieren.
-
Wie
unten genau geschildert, gibt es Operatorsätze, welche spezifisch bei
Silben anwendbar sind, welche akzentuiert werden sollen ("akzentuierbare" Silben). Diese Operatoren
werden nicht systematisch an allen akzentuierbaren Silben angewendet,
sondern nur an denen, welche durch eine Zufallsauswahl unter Kandidatensilben
ausgewählt
werden. Die Kandidatensilben sind von den Vokalisierungsdaten abhängig. Wenn
letztere Anzeichen enthalten, nach denen Silben akzentuiert werden
dürfen,
dann werden die Kandidatensilben nur aus diesen akzentuierbaren
Silben ausgewählt.
-
Dieses
wird normalerweise bei verständlichen
Texten der Fall sein, bei welchen einige Silben nicht akzentuiert
werden dürfen,
um eine natürlich
klingende Übertragung
sicherzustellen. Wenn die Vokalisierungsbibliothek keine solchen
Anzeichen enthält,
dann sind alle Silben Kandidaten für die Zufallsauswahl. Dieses
ist normalerweise bei unverständlichen
Soundarten der Fall.
-
Die
Zufallsauswahl wird durch eine Zufallsauswahleinheit 38 für eine steuerbare
Wahrscheinlichkeit, wirksam angeschlossen zwischen der Erfassungseinheit 36 für eine autorisierte
Silbenakzentuierung und der Operatorparametrisiereinheit 28 ermöglicht.
Die Zufallsauswahleinheit 38 umfasst einen Wahrscheinlichkeitssteuergrad
zum Auswählen
einer Silbe aus Kandidaten. Besonders, wenn N die Wahrscheinlichkeit
mit einem Steuerbereich von 0 bis 1 eines ausgewählten Kandidaten ist, dann
sind bei P Kandidatensilben im Durchschnitt N × P Silben zum Unterwerfen
unter einen spezifischen Operatorssatz, verbunden mit einer Zufallsakzentuierung,
auszuwählen.
Die Verteilung der nach dem Zufallsprinzip ausgewählten Kandidaten über der
Silbensequenz ist im Wesentlichen gleichmäßig.
-
Die
passend konfigurierten Operatorsätze
von der Operatorsatzkonfigurationseinheit 26 werden zu
einer Silbendatenmodifiziereinheit 40 gesendet, bei welcher
sie die Silbendaten bearbeiten. Zu diesem Zweck empfängt die
Silbendatenmodifiziereinheit 40 die Silbendaten direkt
von der Vokalisierungsdatei 10, analog dem Dekoder 12 von 3.
Die so empfangenen Silbendaten werden durch die Einheit 40 als
Funktion des Operatorsatzes modifiziert, besonders mit Bezug auf
die Daten der Tonhöhe
und der Tondauer. Die resultierenden modifizierten Silbendaten (neue
Silbendaten) werden dann durch die Silbendatenmodifiziereinheit 40 zum
Dekoder 12 ausgegeben, mit der gleichen Struktur, wie dargestellt
in der Vokalisierungsdatei (vergleiche 2a).
Auf diese Weise kann der Dekoder die neuen Silbendaten genau verarbeiten,
als ob sie direkt von der Vokalisierungsdatei stammen. Von dort
aus werden die neuen Silbendaten interpoliert (Interpolatoreinheit 14)
und durch die anderen stromabwärts
gelegenen Einheiten von 3 genau in der gleichen Weise
verarbeitet. Jedoch entspricht der am Lautsprecher erzeugte Sound
dann nicht mehr einem neutralen Ton, sondern eher einem Sound mit
einer Emotionssimulation, wie vom Nutzer 32 definiert.
-
Alle
oben genannten Funktionseinheiten arbeiten unter der Gesamtsteuerung
einer Operationssequenzereinheit 42, welche die komplette
Durchführung
des Emotionserzeugungsverfahrens in Übereinstimmung mit einem vorgeschriebenen
Regelwerk steuert.
-
Die 6 veranschaulicht
graphisch den Effekt des Tonhöhenoperatorsatzes
OP auf einer Tonhöhenkurve
(wie in 4b) eines synthetisierten Sounds.
Für jeden
Operator zeigt die Figur – jeweils
auf linken und rechten Spalten – eine
Tonhöhenkurve
(Grundfrequenz f gegen die Zeit t) vor der Tätigkeit des Tonhöhenoperators
und nach der Tätigkeit
des Tonhöhenoperators.
Im Beispiel sind die Eingangstonhöhenkurven für alle Operatoren identisch
und sind zufällig
verhältnismäßig flach.
-
Es
gibt im dargestellten Satz vier Operatoren, und zwar folgende (in
der Figur von oben nach unten):
- – einen
Tonhöhenoperator
OPrs für
eine "Steigung", welcher jeder Eingangstonhöhenkurve
eine Steigung über
der Zeit verleiht, das heißt,
er bewirkt, dass die ursprüngliche
Tonhöhenkontur
bezüglich
der Frequenz über
der Zeit steigt;
- – einen
Tonhöhenoperator
OPfs für
ein "Gefälle", welcher jeder Eingangstonhöhenkurve
ein Gefälle über der
Zeit verleiht, das heißt,
er bewirkt, dass die ursprüngliche
Tonhöhenkontur
bezüglich
der Frequenz über der
Zeit fällt;
- – einen
Tonhöhenoperator
OPsu für
eine "Aufwärtsverschiebung", welcher jeder Eingangstonhöhenkurve eine
gleichmäßige Aufwärtsverschiebung
bezüglich
der Grundfrequenz verleiht, wobei die Verschiebung für alle Punkte über der
Zeit die gleiche ist, so dass die Tonhöhenkontur einfach die Grundfrequenzachse
hochgeschoben wird; und
- – einen
Tonhöhenoperator
OPsd für
eine "Abwärtsverschiebung", welcher jeder Eingangstonhöhenkurve eine
gleichmäßige Abwärtsverschiebung
bezüglich
der Grundfrequenz verleiht, wobei die Verschiebung für alle Punkte über der
Zeit die gleiche ist, so dass die Tonhöhenkontur einfach die Grundfrequenzachse
hinuntergeschoben wird.
-
In
der Ausführungsform
haben die Operatoren OPrs und OPfs für eine Steigung und für ein Gefälle die folgende
Eigenschaft: die Tonhöhe
am Mittenpunkt bezüglich
der Zeit (1/2t1 für
eine Tonhöhendauer
von t1) bleibt nach dem Operator im Wesentlichen unverändert. Mit
anderen Worten, die Operatoren agieren, um die Eingangstonhöhenkurve über den
Tonhöhenwert
am Mittenpunkt bezüglich
der Zeit zu schwenken, um die erforderliche Neigung zu verleihen.
Dies bedeutet, dass im Falle des Operators OPrs für eine Steigung,
die Tonhöhenwerte
vor dem Mittenpunkt bezüglich
der Zeit tatsächlich
gesenkt werden, und dass im Falle des Operators OPfs für ein Gefälle, die
Tonhöhenwerte
vor dem Mittenpunkt bezüglich
der Zeit tatsächlich
angehoben werden, wie durch die Figur gezeigt wird.
-
Optional
können
auch mit OI gekennzeichnete Intensitätsoperatoren bereitgestellt
werden. Die Effekte dieser Operatoren sind in 7 dargestellt,
welche der Abbildung von 6 direkt analog ist. Diese Operatoren
sind auch vier bezüglich
der Anzahl und sind zu denen der Tonhöhenoperatoren OP identisch,
außer
dass sie auf die Kurve der Intensität I über der Zeit t einwirken. Folglich
werden diese Operatoren um der Prägnanz willen nicht separat
genau geschildert.
-
Jeder
der Tonhöhen-
und Intensitätsoperatoren
kann wie folgt parametrisiert werden:
- – für die Steigungs-
und Gefälleoperatoren
(OPrs, OPfs, OIrs, OIfs): der zu verleihende Neigungsgradient auf
die Eingangskontur. Die Neigung kann in Form von normalisierten
Neigungswerten ausgedrückt
werden. Beispielsweise entspricht 0 keiner verliehenen Neigung:
der Operator hat in diesem Fall keinen Effekt auf den Eingang (auf
einen solchen Operator wird als ein neutralisierter oder neutraler
Operator Bezug genommen). Das andere Extrem bedeutet, ein Maximalwert
max bewirkt, dass die Eingangskurve einen infiniten Gradient besitzt,
das heißt,
dass sie im Wesentlichen vertikal steigt oder fällt. Zwischen diesen Extremen
kann jeder beliebige Parameterwert dem fraglichen Operator zugeordnet
werden, um die erforderliche Neigung der Eingangskontur zu verleihen;
- – für die Verschiebungsoperatoren
(OPsu, OPsd, OIsu, OIsd): der der Eingangskontur verliehene Betrag an
Aufwärtsverschiebung
oder Abwärtsverschiebung,
in Form von Absolutwerten für
die Grundfrequenz (für
die Tonhöhe)
oder für
die Intensität.
Die entsprechenden Parameter können
folglich in Form einer Inkrementeinheit oder einer Dekrementeinheit
entlang der Tonhöhenachse
oder der Intensitätsachse
ausgedrückt
werden.
-
Die 8 veranschaulicht
graphisch den Effekt eines Dauer- (oder Zeit-)Operators OD auf eine
Silbe. Die Abbildung zeigt auf linken und rechten Spalten jeweils
die Dauer der Silbe (in Form einer horizontalen Linie, welche eine
Anfangslänge
der Zeit t1 ausdrückt)
der Eingangssilbe vor dem Effekt eines Daueroperators und nach dem
Effekt eines Daueroperators.
-
Der
Daueroperator kann sein:
- – ein Dilatationsoperator,
welcher bewirkt, dass die Dauer der Silbe zunimmt. Die Zunahme wird
in Form eines Parameters D ausgedrückt, gekennzeichnet als ein
positiver Parameter D. Beispielsweise kann D einfach eine Anzahl
von Millisekunden einer Dauer sein, dem Anfangseingangsdauerwert
hinzuzufügen, wenn
letzterer auch in Millisekunden ausgedrückt wird, so dass die Operatoraktion
einfach erhalten wird, indem man den Wert D der Dauerspezifikation
t1 für
die fragliche Silbe hinzufügt.
Im Ergebnis bewirkt die Verarbeitung der Daten durch den Interpolator 14 und
durch nachfolgende Einheiten, dass die Periode, während der
die Silbe ausgesprochen wird, ausgedehnt wird;
- – ein
Kontraktionsoperator, welcher bewirkt, dass die Dauer der Silbe
abnimmt. Die Abnahme wird in Form des gleichen Parameters D ausgedrückt, und
ist in diesem Fall ein negativer Parameter. Beispielsweise kann
D einfach eine Anzahl von Millisekunden einer Dauer sein, vom Anfangseingangsdauerwert
zu subtrahieren, wenn letzterer auch in Millisekunden ausgedrückt wird,
so dass die Operatoraktion einfach erhalten wird, indem man den
Wert D von der Dauerspezifikation für die fragliche Silbe subtrahiert.
Im Ergebnis bewirkt die Verarbeitung der Daten durch den Interpolator 14 und
durch nachfolgende Einheiten, dass sich die Periode, während der
die Silbe ausgesprochen wird, zusammenzieht (verkürzt).
-
Der
Operator kann auch neutralisiert werden, oder als ein neutraler
Operator ausgebildet werden, einfach, indem man den Wert 0 für den Parameter
D einsetzt.
-
Es
ist zur Kenntnis zu nehmen, dass, während der Daueroperator dargestellt
wurde, aus zwei unterschiedlichen Typen zu bestehen, entsprechend
der Dilatation und der Kontraktion, es klar ist, dass der einzige Unterschied
im Zeichen plus oder minus liegt, welches vor dem Parameter D gesetzt
ist. Folglich kann eine gleiche Operatoreinheit beide Operatorfunktionen
erzeugen (Dilatation und Kontraktion), wenn sie sowohl positive
als auch negative Zahlen verarbeiten kann.
-
Der
Bereich der möglichen
Werte für
den Parameter D und seine möglichen
inkrementellen Werte in dem Bereich können entsprechend den Anforderungen
gewählt
werden.
-
Im
Folgenden wird die Parametrisierung von jedem der Operatoren, OP,
OI und OD durch einen variablen Wert ausgedrückt, welcher durch die letzten
Buchstaben des spezifischen Operators plus das spezifische Suffix
für jeden
Operator gekennzeichnet ist, das heißt: Prs = Wert des positiven
Neigungsparameters für den
Steigungs-Tonhöhenoperator
OPrs; Pfs = Wert des negativen Neigungsparameters für den Gefälle-Tonhöhenoperator
OPfs; Psu = Wert des Aufwärtsverschiebungsbetrages
für den
Aufwärtsverschiebungs-Tonhöhenoperator
OPsu; Psd = Wert des Abwärtsverschiebungs-Tonhöhenoperators
OPsd; Dd = Wert des Zeitinkrements für den Dauer-Dilatationsoperator
ODd; Dc = Wert des Zeitdekrements (Kontraktion) für den Dauer-Kontraktionsoperator
ODc.
-
Die
Ausführungsform
wendet weiter einen separaten Operator an, welcher die Wahrscheinlichkeit
N für die
Zufallsauswahleinheit 38 ermittelt. Dieser Wert wird aus
einem Bereich von 0 (keine Selektion möglich) bis 1 (sichere Selektion)
ausgewählt.
Der Wert N dient dazu, die Dichte der akzentuierten Silben in dem
vokalisierten Ausgang zu steuern, soweit für die zu reproduzierende emotionale
Qualität
erforderlich.
-
Die 9A und 9B bilden
ein Flussdiagramm, welches den Prozess des Bildens und selektiven Anwendens
der oben genannten Operatoren bei den Silbendaten auf Basis des
mit Bezug auf die 5 beschriebenen Systems anzeigt.
Die 9B ist eine Fortsetzung der 9A.
-
Der
Prozess beginnt mit einer Initialisierungsphase P1, welche das Laden
von Eingangssilbendaten aus der Vokalisierungsdatei 10 (Schritt
S2) umfasst. Die Daten erscheinen als eine Kennzeichnung der Silbe, beispielsweise "be", gefolgt von einem
ersten Wert t1, welcher die normale Dauer der Silbe ausdrückt, gefolgt von
fünf Werten
P1 bis P5, welche die Grundfrequenz der Tonhöhe bei fünf aufeinanderfolgenden Intervallen der
angezeigten Dauer t1 anzeigen, wie mit Bezug auf die 4a erklärt.
-
Als
nächstes
wird unter Anwendung der Schnittstelleneinheit 30 (Schritt
S4) die auf der Phrase oder Passage zu übertragende Emotion geladen,
von welcher die geladenen Silbendaten einen Teil bilden. Die Emotionen
können
sein: Ruhe, Traurigkeit, Glück,
Zorn, etc.. Die Schnittstelle gibt auch den Grad der zu vermittelnden
Emotion ein, beispielsweise indem ein Gewichtungswert zugeordnet
wird (Schritt S6).
-
Das
System gelangt dann in eine Universaloperatorphase P2, in welcher
ein Universaloperatorsatz OS(U) systematisch bei allen Silben angewendet
wird. Der Universaloperatorsatz OS(U) enthält alle Operatoren der 6 und 8,
das heißt
OPrs, OPfs, OPsu, OPsd, welche die vier Tonhöhenoperatoren bilden, plus ODd
und ODc, welche die zwei Daueroperatoren bilden. Jeder dieser Operatoren
des Operatorsatzes OS(U) wird mit einem entsprechenden zugeordneten
Wert parametrisiert, jeweils Prs(U), Pfs(U), Psu(U), Psd(U), Dd(U)
und Dc(U), wie oben erklärt
(Schritt S8). Dieser Schritt umfasst, das Zuordnen von numerischen
Werten zu diesen Parametern, und wird durch die Operatorsatzkonfigurationseinheit 26 ausgeführt. Die
Wahl der Parameterwerte für
den Universaloperatorsatz OS(U) wird durch die Operatorparametrisiereinheit 8 als
eine Funktion der programmierten Emotion und Quantität der Emotion,
plus fallweise als eine Funktion anderer Faktoren bestimmt.
-
Der
Universaloperatorsatz OS(U) wird dann systematisch bei allen Silben
einer Phrase oder einer Phrasengruppe (Schritt S10) angewendet.
Die Aktion umfasst das Modifizieren der numerischen Werte t1, P1–P5 der
Silbendaten. Für
die Tonhöhenoperatoren
werden die Neigungsparameter Prs oder Pfs in eine Gruppe von fünf Differenzwerten übersetzt,
welche arithmetisch jeweils bei den Werten P1–P5 angewendet werden. Diese
Differenzwerte werden gewählt,
um jeden der Werte P1–P5
entsprechend der parametrisierten Neigung zu verschieben, wobei
der mittlere Wert P3 im wesentlichen unverändert bleibt, wie früher erklärt. Beispielsweise
sind die ersten zwei Werte der Steigungsparameter negativ, um zu
bewirken, dass die erste Hälfte der
Tonhöhe
gesenkt wird, und sind die letzten zwei Werte sind positiv, um zu
bewirken, dass die letzte Hälfte der
Tonhöhe
angehoben wird, so wird die Steigung gebildet, welche am Mittenpunkt
bezüglich
der Zeit geschwenkt ist, wie dargestellt in 6. Der Grad
der Neigung, welche die Parametrisierung bildet, wird in Form von
diesen Differenzwerten ausgedrückt.
Eine ähnliche
Vorgehensweise in umgekehrter Weise wird für den Gefälleparameter angewendet.
-
Die
Aufwärtsverschiebungs-
oder die Abwärtsverschiebungsoperatoren
können
vor oder nach den Neigungsoperatoren angewendet werden. Sie addieren
oder subtrahieren einfach einen gleichen, durch die Parametrisierung
bestimmten Wert zu oder von den fünf Tonhöhenwerten P1–P5. Die
Operatoren bilden gegenseitig Exklusivpaare, das heißt, ein
Steigungsoperator wird nicht angewendet, wenn ein Gefälleoperator angewendet
wird, und gleiches gilt für
die Aufwärtsverschiebungs-,
Abwärtsverschiebungs-
und die Daueroperatoren.
-
Die
Anwendung der Operatoren (das heißt, die Berechnung zur Modifikation
der Daten der Parameter t1, P1–P5)
wird durch die Silbendatenmodifiziereinheit 40 ausgeführt.
-
Sobald
die Silben folglich durch den Universaloperatorsatz OS(U) verarbeitet
wurden, werden sie vorläufig
für eine
eventuell notwendige Weiterverarbeitung zwischengespeichert.
-
Das
System gelangt dann in eine probabilistische Akzentuierungsphase
P3, für
welche ein anderer Operatorakzentuierungsparametersatz OS(PA) vorbereitet
ist. Dieser Operatorsatz hat die gleichen Operatoren wie der Universaloperatorsatz,
aber mit unterschiedlichen Werten für die Parametrisierung. Unter
Anwendung der für
den Universaloperatorsatz verwendeten Konvention wird der Operatorsatz
OS(PA) mit entsprechenden Werten parametrisiert: Prs(PA), Pfs(PA),
Pru(PA), Psd(PA), Dd(PA), und Dc(PA). Diese Parameterwerte werden
ebenfalls durch die Operatorparametrisiereinheit 28 als
eine Funktion der Emotion, des Emotionsgrads und anderer Faktoren,
welche von der Schnittstelleneinheit 30 bereitgestellt
werden, berechnet. Die Wahl der Parameter wird im Allgemeinen getroffen,
um der Sprache entsprechend der betrachteten Emotion einen Grad
an Intonation (Satzrhythmus) hinzuzufügen. Ein zusätzlicher
Parameter des probabilistischen Akzentuierungsoperatorsatzes OS(PA)
ist der Wert der Wahrscheinlichkeit N, wie oben definiert. Dieser
Wert hängt
von der Emotion und dem Emotionsgrad, sowie von anderen Faktoren
ab, beispielsweise von der Art der Silbendatei.
-
Sobald
die Parameter erhalten wurden, werden sie in die Operatorsatzkonfigurationseinheit 26 eingegeben,
um den kompletten probabilistischen Akzentuierungsparametersatz
OS(PA) (Schritt S12) zu bilden.
-
Als
nächstes
wird bestimmt, welche der Silben diesem Operatorsatz OS(PA) unterworfen
werden, welche durch die Zufallsauswahleinheit 38 bestimmt
wurden (Schritt S14). Die letztere liefert die Liste der nach dem
Zufallsprinzip ausgewählten
Silben für
die Akzentuierung durch diesen Operatorsatz. Wie oben erklärt, sind
Kandidatensilben:
- – alle Silben, wenn sie unverständlichen
Soundarten zugeordnet sind, oder wenn es keine verbotenen Akzentuierungen
auf Silben gibt, oder
- – nur
die erlaubten (akzentuierbaren) Silben, wenn diese in der Datei
spezifiziert sind. Dieses ist normalerweise bei bedeutungsvollen
Wörtern
der Fall.
-
Die
nach dem Zufallsprinzip ausgewählten
Silben unter den Kandidaten werden dann für die Verarbeitung durch den
probabilistischen Akzentuierungsoperatorsatz OS(PA) durch die Silbendatenmodifiziereinheit 40 vorgebracht
(Schritt S16). Die tatsächliche
ausgeführte
Verarbeitung ist die selbe wie oben für den Universaloperatorsatz
erklärt,
mit den gleichen technischen Betrachtungen, wobei der einzige Unterschied
in den betroffenen Parameterwerten liegt.
-
Es
ist anzumerken, dass die Verarbeitung durch den probabilistischen
Akzentuierungsoperatorsatz OS(PA) bei Silbendaten ausgeführt wird,
welche bereits durch den Universaloperatorsatz OS(U) verarbeitet wurden.
Mathematisch kann diese Tatsache für ein Silbendatenelement Si
einer verarbeiteten Datei, nachdem es bei Schritt S14 ausgewählt wurde,
wie folgt dargestellt werden: OS(PA).OS(U).Si → Sipacc, wobei Sipacc die resultierenden
Daten für
die akzentuierte verarbeitete Silbe darstellt.
-
Für alle Silben,
außer
den Silben der ersten und letzten Wörter einer Phrase, welche in
der Vokalisierungsdateieinheit 10 enthalten sind, liefert
die Silbendatenmodifiziereinheit 40 die folgenden modifizierten
Formen der ursprünglich
in der Datei 10 enthaltenen Silbendaten (generisch mit
S bezeichnet):
- – OS(U).S → Spna für die Silbendaten, welche bei
Schritt S14 nicht ausgewählt
wurden, wobei Spna eine verarbeitete nicht-akzentuierte Silbe kennzeichnet,
und
- – OS(PA).OS(U).S → Spacc für die Silbedaten,
welche bei Schritt S14 ausgewählt
wurden, wobei Spacc eine verarbeitete akzentuierte Silbe kennzeichnet.
-
Schließlich gelangt
der Prozess in eine Phase P4 der Verarbeitung einer für erste
und letzte Silben einer Phrase spezifischen Akzentuierung. Wenn
eine Phrase aus identifizierbaren Wörtern besteht, agiert diese
Phase P4, um alle Silben der ersten und letzten Wörter einer
Phrase zu akzentuieren. Die Begriff "Phrase" kann in einer normalen grammatikalischen
Bedeutung für
verständlichen
zu sprechenden Text verstanden werden, beispielsweise im Sinne von
Pausen bei der Rezitation. Im Falle von unverständlichem Sound, wie beispielsweise
Geplapper oder Tiernachahmungen, wird eine Phrase im Sinne von Anfang
und Ende einer Äußerung verstanden,
gekennzeichnet durch eine Pause. Typischerweise kann eine solche
Phrase von zirka einer bis drei oder bis vier Sekunden dauern. Für unverständliche
Soundarten trifft die Phase P4 des Akzentuierens der letzten Silben
auf zumindest die ersten und letzten Silben, und vorzugsweise auf
die ersten m und letzten n Silben zu, wobei m oder n typischerweise
gleich zirka 2 oder 3 sind, und gleich oder unterschiedlich sein
können.
-
Wie
in den vorherigen Phasen wird eine spezifische Parametrisierung
der gleichen elementaren Operatoren OPrs, OPfs, OPsu, OPsd, ODd,
ODc ausgeführt,
und ergibt einen Akzentuierungsoperatorsatz OS(FL) für die erste
und letzte Silbe, parametrisiert durch einen entsprechenden zugeordneten
Wert, jeweils Prs(FL), Pfs(FL), Psu(FL), Psd(FL), Dd(FL), und Dc(FL)
(Schritt S18). Diese Parameterwerte werden ebenfalls durch die Operatorparametrisiereinheit 28 als
eine Funktion von der Emotion, dem Emotionsgrad und von anderen Faktoren,
welche von der Schnittstelleneinheit 30 bereitgestellt
werden, berechnet.
-
Der
resultierende Operatorsatz OS(FL) wird dann bei den ersten und letzten
Silben jeder Phrase angewendet (Schritt S20), wobei diese Silben
durch die Identifizierungseinheit 34 für erste/letzte Silben identifiziert
werden.
-
Wie
oben werden die Silbendaten, bei welchen der Operatorsatz OS(FL)
angewendet wird, vorher durch den Universaloperatorsatz OS(U) bei
Schritt S10 verarbeitet. Zusätzlich
kann es vorkommen, dass erste oder letzte Silbe(n) auch bei Zufallsauswahlschritt
S14 ausgewählt
werden, und dadurch auch von dem probabilistischen Akzentuierungsoperatorsatz
OS(PA) verarbeitet werden.
-
Es
gibt folglich zwei Möglichkeiten
der Verarbeitung für
eine erste oder letzte Silbe, welche nachfolgend unter Anwendung
der oben definierten Konvention beschrieben werden:
- – Möglichkeit
eins: Verarbeitung durch Operatorsatz OS(U) und dann durch Operatorsatz
OS(FL), mit dem Ergebnis: OS(FL).OS(U).S → Spfl(1), und
- – Möglichkeit
zwei: sukzessive Verarbeitung durch Operatorsatz OS(U), OS(PA) und
OS(FL), mit dem Ergebnis: OS(FL).OS(PA).OS(U).S → Spfl(2).
-
Diese
einfache operatorbasierte Vorgehensweise erbrachte den Nachweis,
Resultate zu erreichen, welche mit den von wesentlich komplexeren
Systemen erhaltenen Resultaten zumindest vergleichbar sind, sowohl
für bedeutungslose Äußerungen
als auch bei Sprachausdrücken
in einer erkennbaren Sprache.
-
Die
Wahl der Parametrisierungen zum Ausdrücken einer gegebenen Emotion
ist extrem subjektiv und variiert beträchtlich abhängig von der Form der Äußerung,
der Sprache, etc.. Jedoch aufgrund des Besitzes von einfachen, genau
definierten Parametern, welche nicht viel Echtzeitverarbeitung erfordern,
ist es einfach, viele mögliche
Kombinationen von Parametrisierungen zu scannen, um die zufriedenstellendsten
Operatorsätze
zu erhalten.
-
Nur
um ein anschauliches Beispiel zu vermitteln, hat der Anmelder herausgefunden,
dass gute Resultate mit den folgenden Parametrisierungen erreicht
werden können:
- – Traurigkeit:
Tonhöhe
für den
Universaloperatorsatz = Gefälle
mit kleiner Neigung
Daueroperator = Dilatation
Wahrscheinlichkeit
der Auswahl N für
eine Akzentuierung: niedrig
- – Ruhe:
kein Operatorsatz angewendet, oder nur leicht parametrisierter Universaloperator
- – Glück: Tonhöhe für Universaloperatorsatz
= Steigung mit mäßig hoher
Neigung
Dauer für
Universaloperatorsatz = Kontraktion
Dauer für akzentuierten Operatorsatz
= Dilatation
- – Zorn:
Tonhöhe
für alle
Operatorsätze
= Gefälle
mit mäßig hoher
Neigung
Dauer für
alle Operatorsätze
= Kontraktion
-
Für einen
in dem oben genannten Beispiel nicht spezifizierten Operatorsatz:
eine Parametrisierung vom gleichen allgemeinen Typ für alle Operatorsätze. Im
Allgemeinen ist die Art der Änderungen
(Steigung, Kontraktion, etc.) für
alle Operatorsätze
dieselbe, nur die tatsächlichen
Werte sind unterschiedlich. Hier werden die Werte normalerweise
derart gewählt,
so dass der kleinste Änderungsbetrag
durch den Universaloperatorsatz erzeugt wird, und der größte Änderungsbetrag
durch die Akzentuierung von erster und letzter Silbe erzeugt wird,
wobei der probabilistische Akzentuierungsoperatorsatz einen dazwischen
liegenden Änderungsbetrag
erzeugt.
-
Das
System kann auch gebildet werden, um Intensitätsoperatoren OI in seinem Satz
anzuwenden, abhängig
von der angewendeten Parametrisierung.
-
Die
Schnittstelleneinheit 30 kann in eine Computerschnittstelle
integriert werden, um unterschiedliche Steuerungen zur Verfügung zu
stellen. Unter diesen kann sich eine direkte Wahl von Parametern
der unterschiedlichen, oben genannten Operatorsätze befinden, um den Benutzer 32 zu
erlauben, das System fein abzustimmen. Die Schnittstelle kann benutzerfreundlich
gebildet werden, indem man visuelle Anzeigen zur Verfügung stellt,
welche beispielsweise graphisch die Neigungswerte, die Verschiebungswerte,
die Kontraktions-/Dilatationswerte für die unterschiedlichen Parameter
darstellen.
-
Auch
ist es klar, dass die Aufspaltung der elementaren Operatoren, dargestellt
in den 6, 7 und 8 und angewendet
in dem Prozess von den 9a und 9b, mit
Blick auf eine leichter verständliche
Wiedergabe der Offenlegung gebildet wurde. In der Praxis können komplementäre Paaroperatoren,
wie beispielsweise Steigungs- und Gefälleoperatoren in einem einzelnen
Operator kombiniert werden, welcher entweder eine Steigung oder
ein Gefälle
abhängig
von seiner Parametrisierung verleihen kann. Ebenso können die
Aufwärtsverschiebungs-
und die Abwärtsverschiebungsoperatoren
in nur einem Operator kombiniert werden, welcher die Tonhöhen- oder
Intensitätskontur
abhängig
von seiner Parametrisierung aufwärts
oder abwärts
verschieben kann. Dasselbe trifft auch für die Daueroperatoren zu, wie
bereits oben genannt.
-
Die
Beispiele werden für
ein gegebenes Format von Sprachdaten veranschaulicht, aber es ist
klar, dass jede andere Formatierung der Daten angenommen werden
kann. Die Anzahl der in den Beispielen angegebenen Tonhöhen- oder
Intensitätswerte
kann verschieden von fünf
sein, die typische Anzahl der Werte reicht von nur einem Wert bis
zu mehr als fünf
Werten.
-
Während die
Erfindung auf der Grundlage von vorher gespeicherten numerischen
Daten beschrieben wurde, welche die zu synthetisierende Sprache
repräsentieren,
kann für
ein System auch beabsichtigt werden, elektronische Signale von Äußerungen
zu verarbeiten, entweder in digitaler oder in analoger Form. In
diesem Fall können
die Operatoren direkt auf die Tonhöhe, die Intensität, oder
die Signalamplituden einwirken. Dieses kann durch digitale Soundverarbeitung
oder durch Analogschaltkreise, wie beispielsweise Rampengeneratoren,
Pegelverschieber, Verzögerungsstrecken,
etc. erreicht werden.
-
Die
Ausführungsform
kann in einer großen
Vielfalt von Vorrichtungen implementiert werden, beispielsweise
in: Roboterhaustieren und anderen intelligenten elektronischen Geschöpfen, Soundsystemen
für pädagogisches
Training, Studioproduktionen (Synchronisation, Sprachanimationen,
Erzählung,
etc.), Vorrichtungen für
das laute Vorlesen von Texten (Bücher,
Artikel, Post, etc.), Soundexperimentiersystemen (psycho-akustische
Forschung etc.), vermenschlichten Computerschnittstellen für PC, Instrumente
und andere Ausrüstung,
und anderen Anwendungen, etc..
-
Die
Form der Ausführungsform
kann umfassen, eine allein operierende Einheit, vollständig ausgerüstet, um
eine komplette synthetisierte Soundreproduktion (vergleiche 3)
zu ermöglichen,
ein Zusatzgerät, welches
mit dem vorhandenen Soundsynthetisieren funktionsfähig ist,
oder Softwaremodule, aufgezeichnet auf einem Medium oder als Download,
welche auf angepassten Prozessorsystemen gestartet werden.