DE60124225T2

DE60124225T2 - Verfahren und Vorrichtung zur Erkennung von Emotionen

Info

Publication number: DE60124225T2
Application number: DE60124225T
Authority: DE
Inventors: c/o Sony France S.A. Pierre-Yves Oudeyer
Original assignee: Sony France SA
Current assignee: Sony France SA
Priority date: 2001-05-11
Filing date: 2001-07-13
Publication date: 2007-09-06
Anticipated expiration: 2021-07-14
Also published as: DE60119496T2; US20020198717A1; EP1256931A1; DE60119496D1; DE60124225D1; JP2003036090A

Description

Die vorliegende Erfindung betrifft das Gebiet der Emotionserkennung und insbesondere ein Verfahren und eine Vorrichtung zum Detektieren einer Emotion aus Sprachsignalen. Es gibt nun eine wachsende Zahl von Anwendungen, die technische Einrichtungen erfordern, eine in einer menschlichen Sprache – oder möglicherweise synthetisierten oder Tiersprache – übermittelten Emotion zu detektieren, um z. B. eine Mensch-Maschinen-Schnittstelle mit einem natürlicheren und intuitiveren Weg der Kommunikation zur Verfügung zu stellen. Zum Beispiel werden heute Roboterhaustiere oder Humanoide mit einem Verhalten entwickelt, das bemerkenswert dem von lebenden Wesen gleicht. In diesem Kontext ist es natürlich, dass von dem Roboter erwartet wird, Äußerungen mit einem Gehalt von Grundemotionen zu detektieren, z. B. Ruhe, Glücklichkeit, Traurigkeit, Wut usw. Andere Anwendungen können in der Ausbildung, im Training, der Sprachtherapie, in der menschlichen Gerätesteuerung, Fahrzeugen, Werkzeugen usw. liegen.
Die meisten Anstrengungen (wenngleich nicht alle), die bis heute in diesem Gebiet der Emotionserkennung unternommen worden sind, konzentrieren sich auf das Detektieren von Emotionen in einem von Personen gesprochenen Text, wobei der Text im Allgemeinen eher Absätze sind als kurze Äußerungen. Die Wiedergabe wird in gut kontrollierten Umgebungen, wie z. B. akustischen Räumen durch geführt.
Die letzten Jahre waren gekennzeichnet durch die zunehmende Entwicklung von persönlichen Robotern, die entweder als neue für die Ausbildung bestimmte Technologien (s. Druin A., Hendler, J. (2000) „Robots for Kids: Exploring new technologies for learning", Morgan Kauffman Publishers-) oder für reine Unterhaltung (s. Fujita M., Kitano H. (1998) „Development of an autonomous quadruped robot for robot entertainment", Autonomus Robots, 5, and Kusahara M. (2000) „The art of creating subjective reality: an analysis of Japanese digital pets", in Boudreau E., ed. in Artificial Life 7, Workshop Proceedings, Seiten 141–144) verwendet werden.
Üblicherweise sehen diese Roboter wie vertraute Haustiere, wie Hunde oder Katzen aus (z. B. der Sony AIBO Roboter) oder nehmen manchmal die Form von jungen Kindern wie z. B. die Humanoide SDR3-X (Sony) an.
Die Interaktion mit diesen Maschinen soll radikal von der Art und Weise verschieden sein, in der wir mit herkömmlichen Computern interagieren. Soweit haben Menschen gelernt, sehr unnatürliche Handlungsweisen und Medien, wie z. B. Tastaturen oder Dialogfenster, anzuwenden, und mussten einiges erhebliches Wissen über die Weise haben, wie Computer arbeiten, um diese benutzen zu können.
Unter den Fähigkeiten, die diese persönlichen Roboter benötigen, ist eine der grundlegendsten die Fähigkeit, menschliche Emotionen zu erfassen (s. Picard R. (1997) „Affective Computing", MIT Press) und insbesondere sollten sie sowohl menschliche Emotionen erkennen als auch ihre eigenen Emotionen ausdrücken können. Tatsächlich sind Emotionen für das menschliche Verständnis nicht nur entscheidend, sondern sie sind auch wichtig für die soziale Regulierung (s. Halliday M. (1975) „Learning how to mean: exploration in the development of language", Elsevier, NY.) und insbesondere für die Steuerung von Dialogflüssen (sprachlich und gestikulär).
Abgesehen von der Sprache drücken wir unsere Emotionen gegenüber Anderen in zwei Hauptarten aus: Modulation des Gesichtsausdrucks (s. Ekman, P. (1982) „Emotions in the human face", Cambridge University Press, Cambridge.) und die Modulation der Intonation der Stimme (s. Banse, R. und Sherer, K. R., (1996) „Acoustic profiles in vocal emotion expression", Journal of Personality and Social Psychology, 70(3): 614–636).
Wenngleich heute die Forschung der automatischen Erkennung von Emotionen in Gesichtsausdrücken sehr ergiebig ist (s. A. Samal, P. Iyengar (1992) „Automatic recognition and analysis of human faces and facial expression: A survey. Pattern Recognition, 25(1): 65–77), wird die Forschung an Sprachmodalitäten, sowohl für die automatische Wiedergabe als auch die Erkennung durch Maschinen aktiv erst seit wenigen Jahren betrieben (s. Bosh, L. T. (2000) „Emotions: what is possible in the ASR framework?" in Proceedings of the ISCA Workshop on Speech and Emotion).
Ein Ausgangspunkt bei der Forschung ist eine Ermittlung von akustischen Korrelationen zwischen einer Emotion und ihrer Wirkung auf die akustischen Eigenschaften des entsprechenden Sprachsignals. Eine Anzahl von Forschern hat bereits bezüglich dieser Frage geforscht (s. Fairbanks 1940, Burkhard and Sendlmeier 200, Banse and Sherer 1996).
Ihre Ergebnisse bestätigen die Sprachkorrelationen, die aus physiologischen Gegebenheiten erwachsen und die einer breiten Klasse von Grundemotionen entsprechen, stimmen jedoch nicht überein und sind unklar, wenn man auf die Unterschiede zwischen den akustischen Korrelationen von z. B. Furcht und Überraschung, von Langeweile und Traurigkeit betrachtet. Tatsächlich sind bestimmte emotionale Zustände oft mit bestimmten physiologischen Zuständen korreliert (s. Picard 1997, wie oben angeführt), die umgekehrt ziemlich mechanische und somit vorhersagbare Effekte auf die Sprache, insbesondere auf die Tonhöhe (Grundfrequenz F0), das Timing und die Sprachqualität haben. Wenn man sich z. B. in einem Zustand der Wut, Furcht oder Freude befindet, ist dass sympathetische Nervensystem angeregt, die Herzfrequenz und der Blutdruck steigen an, der Mund wird trocken, und es gibt gelegentlich Muskelzittern. Die Sprache ist dann laut, schnell und mit hoher Energie bei hohen Frequenzen beaufschlagt. Wenn man gelangweilt oder traurig ist, ist das parasympathetische Nervensystem angeregt, die Herzfrequenz und der Blutdruck sinken und der Speichelfluss steigt an, wodurch eine Sprache hervorgerufen wird, die langsam, mit einer geringen Tonhöhe versehen und mit einer geringen Energie bei hohen Frequenzen versehen ist (Breazal, C. (2000) Sociable Machines: „Expressive social exchange between humans and robots", PhD Thesis, MIT AI Lab.).
Weiterhin belegt die Tatsache, dass diese physiologischen Effekte ziemlich universelle Mittel sind, dass es gemeinsame Tendenzen bei den akustischen Korrelationen von Grundemotionen über verschiedene Kulturen hinweg gibt. Dies wurde in Studien genau untersucht (s. Abelin A, Allwood J., (2000) „Cross-linguistic interpretation of emotional prosody", in Proceedings of the ISCA Workshop on Speech and Emotion) or Tickle A. (2000), „English and Japanese speaker's emotion vocalisations and recognition: a comparison highlighting vowel quality", ISCA Workshop on Speech and Emotion, Belfast 2000). In diesen Studien wurden Experimente durchgeführt, bei denen z. B. Amerikaner versuchen mussten, die Emotion von entweder einem weiteren Amerikaner oder einem Japaner zu erkennen, indem sie lediglich die akustische Information verwenden (die Laute waren ohne Bedeutung, so dass es keine semantische Information gab).
Auf ähnliche Weise wurden Japaner gebeten, zu versuchen zu entscheiden, welche Emotionen andere Japaner oder Amerikaner versuchen auszudrücken. Aus diesen Studien erhielt man zwei Ergebnisse: 1) Es gibt nur einen geringen Unterschied zwischen den Ergebnissen beim Versuchen Emotionen festzustellen, die durch jemanden ausgedrückt werden, der die selbe Sprache spricht, und jemandem, der die andere Sprache spricht, und dies gilt sowohl für Japaner als für Amerikaner; 2) Menschen waren weit entfernt davon, die Emotionen absolut in perfekter Weise zu erkennen: Die beste Erkennungsleistung lag bei 60 Prozent: Dieses Ergebnis könnte teilweise durch die Tatsache erklärbar sein, dass Menschen aufgefordert wurden, unsinnige Äußerungen auszusprechen, die ziemlich unnatürlich sind, wird jedoch bestätigt durch Untersuchungen, bei denen Leute aufgefordert wurden, semantisch neutrale, jedoch Sätze mit Bedeutung auszudrücken (s. Burkhardt F., Sendlmeier W., (2000) „Verification of acoustical correlates of emotional speech using formatsynthesis", in Proceedings of the ISCA Workshop in Speech and Emotion.).
Das erste Ergebnis gibt an, dass das Ziel, eine Maschine sowohl bedeutungslose Sprache oder in einer Weise, die durch Leute von verschiedenen Kulturen erkennbar ist, mit der Genauigkeit eines menschlichen Sprechers ausdrücken zu lassen, theoretisch erreichbar ist. Das zweite Ergebnis zeigt, dass wir kein perfektes Ergebnis erwarten sollten und die Maschinenleistung mit der menschlichen Fähigkeit vergleichen sollten. Die Tatsache, dass Menschen nicht so gut sind, wird hauptsächlich durch die Tatsache erklärt, dass mehrere emotionale Zustände sehr ähnliche physiologische Korrelationen aufweisen und dadurch akustisch korrelieren. Bei tatsächlichen Situationen lösen wir die Zweideutigkeiten durch Verwenden des Kontext und/oder anderen Modalitäten. Tatsächlich haben einige Experimente gezeigt, dass die multimodale Natur des Ausdruckes eines Affekts zu einem MacGurk-Effekt für Emotionen führen kann (s. Massaro D., (2000) „Multimodal emotion perception: analogous to speech processes", ISCA Workshop on Speech and Emotion, Belfast 2000.) und dass verschiedene Kontexte dazu führen können, dass Menschen dieselbe Betonung als verschiedene Emotionen für jeden Kontext interpretieren können (s. Cauldwell R. (2000) „Where did the anger go? The role of context in interpreting emotions in speech", ISCA Workshop on Speech and Emotion.). Diese Ergebnisse geben an, dass es nicht notwendig ist, eine Maschine Äußerungen erzeugen zu lassen, die feine Unterscheidungen vornehmen; nur die grundlegendsten Emotionszustände müssen untersucht werden.
Eine Anzahl von Experimenten mit Hilfe von computerbasierten Techniken der Klangmanipulation wurden durchgeführt, um herauszufinden, welche besonderen Aspekte der Sprache Emotionen mit der größten Erkennbarkeit darstellen (s. Murray E. and Arnott J. L. (1993) „Towards a simulation of emotion in synthetic speech", Speech Communication, 16(4) S. 1097–1108; Banse R. and Sherer K. R. (1996) „Acoustic profiles in vocal emotion expression", Journal of Personality and Social Psychology, 70(3): 614–636; Burckhardt and Sendlmeier (2000) „Verification of acoustical correlates of emotional speech using Formant-synthesis", Proceedings of the ISCA Workshop on Speech and Emotion; and Williams U. and Stevens Kn N. (1972) „Emotions in speech: some acoustical correlates", JASA 52, 1228–1250. Alle diese Studien stimmen grundlegend mit der Schlussfolgerung überein, dass die bedeutsamsten Aspekte diejenigen der Prosodie: Tonhöhe (bezüglich f0) und Kontur, die Intensitätskontur und das Timing der Äußerungen betreffen. Einige jüngere Studien haben gezeigt, dass die Sprachqualität (s. Gobl C. und Chasaide A. N. (2000) „Testing affective correlates of voice quality through analysis and resynthesis", Proceeding of the ISCA Workshop on Emotion and Speech) und bestimmte coartikulatorischen Phänomene (s. Kienast M. and Sendlmeier W. (2000) „Acoustical analysis of spectral and temporal changes in emotional speech", Proceedings of the ISCA Workshop on Emotion and Speech) auch erheblich mit bestimmten Emotionen korreliert sind.
Mit Bezug zur Detektion von menschlichen Emotionen ist, wenngleich Menschen im Allgemeinen dies mit Hilfe des Kontext und der Modalitäten vornehmen, die von einem sprachlichen Inhalt zum Gesichtsausdruck und Intonation reichen, ein solcher vollständiger Ansatz leider nicht für eine Maschine in einer unkontrollierten Umgebung realistisch: z. B. eine robuste Spracherkennung in Situationen ist außer Reichweite für heutige Systeme und eine Erkennung von Gesichtsausdrücken benötigt sowohl Rechenkapazitäten und Videogeräte, die Roboterwesen in den häufigsten Fällen nicht besitzen.
Aus diesem Grund untersuchte der Anmelder, wie eine Emotionsdetektion vorgenommen werden könnte, indem lediglich die prosodische Information der Sprache (Stimme) verwendet wird. Weiterhin ist die Sprache, auf die es ankommt, diejenige, die in alltäglichen Unterhaltungen vorkommt, was kurze informale Äußerungen bedeutet, im Gegensatz zur Sprache, die erzeugt wird, wenn jemand aufgefordert wird, einen vorbereiteten Text emotional zu lesen, z. B. einen Absatz einer Zeitung. Vier breite Gruppen von emotionellem Inhalt wurden untersucht: Freude/Vergnügen, Sorge/Traurigkeit/Gram, Wut und Ruhe/Neutralität.
Im Gegensatz zur automatischen Erkennung von Emotionen mit Gesichtsausdrücken (s. Samal A. and Iyengar P. „Automatic recognition and analysis of human faces and facial expression: a survey" Pattern Recognition, 25(1): 65–77), ist die Forschung, die die Sprachmodalität verwendet, noch sehr jung (s. Bosh L. T. (2000) „Emotions: what is possible in the ASR framework?" (Proceeding of the ISCA Workshop on Speech and Emotion, Belfast 2000). Die ersten Studien, die durchgeführt wurden (s. Murray and Arnott (1993) „Towards a simulation of emotion in synthetic speech: a review on the literature of human vocal emotion, JASA 93(2), S. 1097–1108, 1993; Williams U. Stevens K. N., (1972), Emotions and speech: some acoustical correlates, JASA 52, 1238–1250) waren nicht so anspruchsvoll, um eine effiziente Maschinenerkennungsvorrichtung hervorzubringen, sondern versuchten lediglich, allgemeine qualitative akustische Korrelationen von Emotionen in Sprache (z. B.: Glücklichkeit erhöht tendenziell die durchschnittliche Tonhöhe von Äußerungen als bei ruhigen Sätzen). In jüngster Zeit hat die zunehmende Wahrnehmung der Tatsache, dass die emotionale Datenverarbeitung (affective computing) ein wichtiges industrielles Potential aufweist (Picard, 1997), die Forschung in Richtung der Frage der Leistungsfähigkeit bei der automatischen Erkennung von Emotionen in Sprache (Bosh, 2000) beschleunigt.
Jedoch wurde keine groß angelegte Untersuchung mit Hilfe der modernen Werkzeuge, die in dem Bereich des Data-Mining und des Maschinenlernens entwickelt wurden, ausgeführt. Tatsächlich werden in den meisten Fällen entweder ein oder zwei Lernschemata getestet (z. B. Polzin T., Waibel A. (2000) „Emotion-sensitive Humancomputer Interface", in Proceedings of the ISCA Workshop on Speech and Emotion; Slaney M., McRoberts G. (1998) „Baby Ears: a recognition system for affective vocalization; in Proceedings of ICASSP 1998) oder es wurden nur sehr wenige und einfache Merkmale verwendet (Polzin and Waibel 2000, Slaney and McRoberts 1998, Breazal 2000, Whiteside 1997) oder es wurden nur kleine Datenbanken verwendet – weniger als 100 Beispiele für jeden Sprecher (s. C. Breazeal; L. Aryananda (2000) „Recognition of affective communicative intent in robot-directed speech", in Proceedings of the Humanoids Conference, 2000; McGilloway S. et al. (2000) „Approaching automatic recognition of emotion from voice: a rough benchmark", in Proceedings of the ISCA Workshop on Speech and Emotion; Slaney M., McRoberts G. (1998) „Baby ears: a recognition system for affective vocalisation", in Proceedings of ICASSP 1998), wodurch nahe gelegt wird, dass die Leistungsfähigkeit von einigen statistischen Lernschemata übersehen worden sein können.
Nur McGilloway and al. 2000, der oben zitiert wurde, hat versucht, einige systematische Daten-Mining-Ansätze durchzuführen, die mehr als die traditionelle/herkömmliche Menge von Merkmalen verwendet, die von dem Rest der Literatur verwendet wurden: Mittelwert, Maximum, Minimum, Maximum-Minimum, Varianz der Tonhöhe und der Intensitätverteilungen und der Längen der phonemischen oder syllabischen Segmente oder der Abschnitte, in denen die Tonhöhe ansteigt.
Jedoch mangelt es dieser Arbeit an einer ausreichenden experimentellen Basis: 1) Nur drei Arten von Lernschemata wurden verwendet – Support-Vektor-Maschinen, Gauß'sche Mischungen und lineare Diskriminanten – die weit entfernt davon sind, die besten zu sein, beim Verarbeiten von Daten, bei denen es wahrscheinlich viele irrelevante Merkmale gibt, und die es insbesondere nicht ermöglichen, automatisch eine kleinere Menge von Merkmalen mit einer optimalen Effizienz abzuleiten; und 2) die Merkmalsmenge wurde untersucht, indem ein Lernschema ausgewählt wurde, und iterativ weniger brauchbare Merkmale für die Klassifikation entfernt wurden: einerseits ist dies ziemlich ad hoc, da es mit einem sehr bestimmten Lernschema und Auswahlverfahren verbunden ist, und andererseits ermöglicht es nicht, die Geeignetheit von Merkmalsgruppen zu detektieren. Ihre Arbeit basiert auf Sprache, die erzeugt worden ist, indem Menschen aufgefordert wurden, Zeitungstexte in emotioneller Weise zu lesen, was nicht den durch die vorliegende Erfindung adressierten Gegebenheiten entspricht.
Bis heute sind die einzigen zwei Forschungsgruppen, die offensichtlich versucht haben, automatische Erkennungsgeräte für die tägliche Sprache herzustellen Breazal 2000 and Slaney et al. 1998, die oben aufgeführt worden sind. Jedoch konnten diese Gruppen nur sehr kleine Datenbanken, sehr wenige Merkmale und zwei verschiedene Lernalgorithmen verwenden. Schließlich liegt eine allgemeine Schlussfolgerung dieser bestehenden Forschungslinie darin, dass Erkennungsraten von über 60 Prozent sogar mit nur den vier Grundemotionen unmöglich erscheinen, wenn mehrere Sprecher berücksichtigt werden. Die erhebliche Sprechervariabilität wurde z. B. beschrieben (s. Slaney et al. 1998, wie oben aufgeführt ist).
Ein Beispiel eines Stands der Technik, der dem Oberbegriff des unabhängigen Anspruchs entspricht, kann in dem Dokument US-A-4,142,067 gefunden werden.
Es ist daher eine Aufgabe der vorliegenden Erfindung, eine sprachbasiertes Emotionserkennungsverfahren und Vorrichtung vorzuschlagen, das hinsichtlich seiner Rechenlast erträglich ist, so dass es in praktischer Weise in kleinen Systeme, wie z. B. in Haustierroboter, Humanoide und dgl. eingesetzt werden kann, während sie eine gute Trefferquote bezüglich eines korrekten Erkennens einer Emotion aufweisen.
Eine weitere Aufgabe der Erfindung besteht darin, es zu ermöglichen, Emotionen, die in kurzen Äußerungen enthalten sind, zu identifizieren.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, einen Betrieb in Situationen des täglichen Lebens zu ermöglichen, wo Äußerungen in rauschbehafteten und/oder akustisch schlechten Umgebungen gemacht werden.
Insbesondere schlägt die Erfindung gemäß einem ersten Aspekt ein Verfahren zum Detektieren einer in einem Sprachsignal übermittelten Emotion vor, mit folgenden Schritten:

– Extrahieren einer Gruppe, die mehr als ein von dem Signal abgeleitetes Merkmal umfasst, und
– Verarbeiten der Gruppe der (des) extrahierten Merkmale (Merkmals), um daraus eine Emotion zu detektieren, wobei ein Schritt des Tiefpassfilterns des Sprachsignals vor dem Extrahieren des mindestens einen Merkmals dieser Gruppe vorgesehen ist.

Der Schritt des Tiefpassfilterns umfasst vorzugsweise das Filtern der Intensität des Sprachsignals mit einer Grenzfrequenz (Fco), im Wesentlichen im Bereich von 150 bis 400 Hz, insbesondere im Wesentlichen im Bereich zwischen 250 bis 300 Hz, wobei eine bevorzugte Grenzfrequenz (Fco) im Wesentlichen 250 Hz entspricht. Der Schritt des Extrahierens der Merkmale umfasst die Schritte des wahlweisen Extrahierens von mehr als einem aus 160 Merkmalen, die durch die folgenden Kombinationen von Parametern I, II und III erhalten werden:

– Parameter I: i) die Intensität des nach dem Schritt des Tiefpassfilterns abgeleiten Signals, ii) die Intensität des Signals ohne die Tiefpassfilterung, iii) die Tonhöhe des Signals ohne die Tiefpassfilterung, und iv) die Tonhöhe des nach dem Schritt des Tiefpassfilterns abgeleiteten Signals;
– Parameter II, die aus einer Abfolge von Werten eines Parameters I während der Dauer des Sprachsignals erhalten werden: 1) eine Reihe von lokalen Minima, dessen Elemente Werte in der Reihe sind, die einem Minimum entsprechen, 2) eine Reihe von lokalen Maxima, dessen Elemente Werte in der Reihe sind, die einem Maximum entsprechen, 3) eine Reihe von Zeitdauern (Zeitintervallen), dessen Elemente Zeitwerte sind, die (benachbarte) lokale Extremwerte trennen, und 4) eine Reihe, dessen Elemente alle aufeinander folgend abgetasteten Werte der Abfolge sind; und
– Parameter III, die aus einer Reihe der Parameter II errechnet sind: 1) der Mittelwert 2) das Maximum (d. h. der insgesamt höchste Wert), 3) das Minimum (d. h. der insgesamt niedrigste Wert), 4) die Differenz zwischen dem Maximum und dem Minimum, 5) die Varianz, 6) der Median, 7) das erste Quartil, 8) das dritte Quartil, 9) der Interquartilbereich, der als Differenz zwischen dem dritten und dem ersten Quartil definiert ist, 10) Der Mittelwert des absoluten Wertes der lokalen Ableitung;

Vorzugsweise umfassen die Parameter I insbesondere:

i) die Intensität des Signals, das nach dem Schritt des Tiefpassfilterns abgeleitet wird,
ii) die Intensität des Signals ohne die Tiefpassfilterung, und
iii) die Tonhöhe des Signals ohne die Tiefpassfilterung,

Vorzugsweise umfassen die Parameter III insbesondere die folgenden fünf Parameter:

2) das Maximum (d. h. der insgesamt höchste Wert),
3) das Minimum (d. h. der insgesamt niedrigste Wert),
6) der Median,
7) das erste Quartil,
8) das dritte Quartil.

Vorzugsweise umfasst der Schritt des Extrahierens das Extrahieren von mindestens einem der folgenden möglichen Merkmale:

– das Maximum (d. h. der insgesamt höchste Wert),
– das Minimum (d. h. der insgesamt niedrigste Wert),
– der Median,
– das erste Quartil,
– das dritte Quartil, berechnet aus:
– der Reihe von Werten des Intensitätssignals, die nach dem Tiefpassfiltern des Sprachsignals abgeleitet werden,
– der Reihe von Minimumwerten des Intensitätssignals, die ohne das Tiefpassfiltern des Sprachsignals abgeleitet werden,
– der Reihe von Tonhöhenwerten des Signals, die nach dem Tiefpassfiltern des Sprachsignals abgeleitet werden, und
– der Reihe von Tonhöhenwerten des Signals, die ohne das Tiefpassfiltern des Sprachsignals abgeleitet werden.

Der Schritt des Extrahierens kann das Extrahieren von Merkmalen umfassen, die sowohl von dem Sprachsignal nach dem Schritt des Tiefpassfilterns als auch von dem Sprachsignal ohne das Tiefpassfiltern abgeleitet werden.
Es kann auch das Extrahieren von Merkmalen nur von dem Sprachsignal nach dem Schritt des Tiefpassfilterns umfassen.
Vorzugsweise umfasst das mindestens eine Element der Gruppe von Merkmalen:

1: der Medianwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte,
2: der Mittelwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte,
3: der dritte Quartilwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte,
4: der erste Quartilwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte,
5: das Maximum der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte, und
6: der Maximalwert der Reihe der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte.

Das Verfahren kann weiterhin einen Schritt des Glättens eines Signals umfassen, das von dem Sprachsignal vor dem Schritt des Extrahierens extrahiert wird.
Bei einer Ausführungsform umfasst das Verfahren weiterhin einen Schritt des Erzeugens eines Algorithmus zum Erkennen einer Emotion mit Hilfe eines Lernalgorithmus, wobei der Lernalgorithmus das mindestens eine Merkmal, das von dem Tiefpass gefilterten Sprachsignal extrahiert ist, anwendet.
Das Verfahren kann weiterhin einen Schritt des Programmierens einer Emotionserkennungsvorrichtung mit einem Offline-Algorithmus zum Erkennen einer Emotion und/oder mit einem Online-Algorithmus zum Erkennen einer Emotion umfassen, wobei der Algorithmus mindestens ein Merkmal, das von einem Tiefpass gefilterten Sprachsignal extrahiert ist, anwendet.
Gemäß einem zweiten Aspekt betrifft die Erfindung eine Vorrichtung zum Erkennen einer in einem Sprachsignal übermittelten Emotion umfassend:

– eine Extraktionseinrichtung zum Extrahieren einer Gruppe, die mehr als ein von dem Signal abgeleitetes Merkmal umfasst, und
– eine Verarbeitungseinrichtung zum Verarbeiten der Gruppe der (des) extrahierten Merkmale (Merkmals), um daraus eine Emotion zu erkennen, wobei die Vorrichtung eine Tiefpassfiltereinrichtung zum Tiefpassfiltern des Sprachsignals vor dem Extrahieren des mindestens eines Merkmals der Gruppe umfasst.

Die Merkmale, die von der Extraktionseinrichtung extrahiert werden, werden von denjenigen entnommen, die im unabhängigen Anspruch 14 angegeben sind.
Die optionalen Merkmale, die oben im Kontext des Verfahrens dargelegt worden sind, werden entsprechend auf obige Vorrichtung angewendet und werden der Übersichtlichkeit halber nicht wiederholt.
Gemäß einem dritten Aspekt betrifft die Erfindung eine Sprachsignalverarbeitungsvorrichtung, insbesondere für die Vorrichtung gemäß dem zweiten Aspekt – oder insbesondere für die Implementierung des Verfahrens gemäß dem ersten Aspekt ausgebildet – dadurch gekennzeichnet, dass sie eine Tiefpassfiltereinrichtung zum Bereitstellen einer Tiefpass gefilterten Form des Sprachsignals an die Extraktionseinrichtung umfasst.
Die Erfindung und ihre Vorteile werden durch Lesen der nachfolgenden Beschreibung der bevorzugten Ausführungsformen offensichtlicher, die ausschließlich nicht beschränkende Beispiele mit Bezug auf die beigefügten Zeichnungen angibt, in denen:
1 ein Diagramm darstellt, das zeigt, wie einige Grundemotionen mit den Parametern wie Valenz und Aufgeregtheit verbunden sind;
2a, 2b und 2c Signalverläufe darstellen, die die Beziehung zwischen einem Sprachsignal (2a), Tonhöhe (2b) und Intensität (2c) darstellen;
3 ein Blockdiagramm eines Systems zum Evaluieren, Charakterisieren und Optimieren eines Emotionsdetektionsansatzes mit Hilfe eines Tiefpassfilterns des Audiosignals zeigt, bei dem eine Emotion erkannt werden soll, gemäß der vorliegenden Erfindung;
4 eine Kurve darstellt, die eine typische und ideale Tiefpassfilterantwortkurve zeigt;
5 eine Menge von Kurven darstellt, die die Antwort eines anpassbaren Grenzfrequenzfilters, der in dem System der 3 verwendet wird, zeigt;
6 einen Abtastsignalverlauf (Signalintensität über der Zeit) darstellt, der zeigt, wie verschiedene berücksichtigte Signalmerkmale abgeleitet werden;
7a, 7b und 7c Diagramme zeigen, die verschiedene Verteilungen von Sprach-Sample darstellen, wenn diese gemäß verschiedenen extrahierten Signalmerkmalen für die Emotionserkennung analysiert werden, jeweils für ein ausgewähltes schlecht informatives, gutes und noch besseres Merkmal;
8a und 8b Diagramme einer erkannten Emotion gemäß der Intensitätsverteilung des ersten und dritten Quartils darstellen, die den Grad des Erfolgs der Emotionserkennung gemäß der Gruppierungseigenschaften von Datenpunkten ausdrücken, jeweils für eine Detektion eines ungefilterten Signals und eines Tiefpass gefilterten Signals mit einer Grenzfrequenz von 250 Hz;
9–13 Diagramme zeigen, die die Leistungsfähigkeit von verschiedenen Algorithmen darstellen, die für die Emotionserkennung bei verschiedenen Bedingungen und verschiedenen Auswahlen von Signalmerkmalen verwendet werden; und
14 zeigt ein Blockdiagramm eines für eine Emotion empfindlichen Systems, das eine Tiefpassfilterung der Sprachsignale gemäß der Erfindung implementiert.
Die bevorzugte Ausführungsform der Erfindung wird für den Emotionserkennungsprozess als sprecherabhängig ausgewählt. Dies ist aus Sicht der Industrie nicht nachteilig, wenn die Ausführungsform auf Roboterhaustiere gerichtet ist, die z. B. nur mit ihren Herrchen interagieren sollen. Auch die Tatsache, dass Roboter nur ihre Besitzer erkennen können, könnte sogar ein positives Merkmal sein, da es eine Quelle von Verbundenheit zwischen einem Roboter und seinem Besitzer ist. Jedoch können die Prinzipien der Erfindung selbstverständlich auch für sprecherunabhängige Ansätze angewandt werden, wie ebenfalls weiter ausgeführt wird.
Die Ausführungsform basiert auf eine Anwendung eines Roboterhaustiers mit vier Grundemotionszuständen, die es in einer menschlichen Stimme erkennen soll: i) Ruhe, ii) Traurigkeit, iii) Wut und iv) Glücklichkeit.
1 zeigt, wie diese Emotionen in einem Diagramm angeordnet sind, das einen „Emotionsraum" darstellt, in dem die Parameter „Valenz" und „Aufgeregtheit" entlang der vertikalen bzw. horizontalen Achse 2 und 4 dargestellt sind. Die Valenz-Achse reicht von negativen zu positiven Werten, während die Aufgeregtheits-Achse von niedrigen zu hohen Werten reicht. Der Kreuzungspunkt 0 dieser Achsen ist die Mitte des Diagramms und entspricht einem Ruhe/neutralen Zustand. Ausgehend von diesem Punkt sind vier Quadranten definiert, von denen jeder eine Emotionszustand enthält, wie folgt: Glücklichkeit/lobend (Quadrant Q1), gekennzeichnet durch eine positive Valenz und hohe Aufgeregtheit, Trostberuhigend (Quadrant Q2), gekennzeichnet durch eine positive Valenz und eine niedrige Aufgeregtheit, Traurigkeit (Quadrant Q3), gekennzeichnet durch eine negative Valenz und eine niedrige Aufgeregtheit und Wut/ermahnend (Quadrant Q4), gekennzeichnet durch eine negative Valenz und hohe Aufgeregtheit.
Die Rahmenbedingungen für die Ausführungsformen sind folgende:

– Personen können sehr frei mit dem Roboterhaustier sprechen,
– Personen können sehr kurze Sätze äußern, wie z. B. „Aibo, du bist wirklich ein schlimmer Roboter!"
– die Äußerungen müssen in einer geräuschbehafteten Umgebung erkannt werden, und
– mehrere Personen müssen mit dem Roboter interagieren können, wobei eine Auswahl der Sprecherabhängigkeit oder -unabhängigkeit vorgenommen werden muss.

Einige dieser Rahmenbedingungen setzen voraus, dass die Äußerungen auf eine auf Kinder gerichtete Sprache beschränkt sind.
Zu Anfang wurde eine Untersuchungsstrategie entwickelt, um festzustellen, wie man diese Ziele am besten erreichen kann. Diese Strategie kann wie folgt zusammengefasst werden:

i) ein Experiment mit einfachen Merkmalen, einfachen Algorithmen und kleinen Datenbanken,
ii) ein systematisches Herausfinden von Merkmalen und Lernalgorithmen für den sprecherabhängigen Fall: a) mit vielen Beispielen mit Hilfe einer Datenbank mit Sample von zwei Sprechern, einem männlichen und einem weiblichen, b) mit nur wenigen Beispielen der obigen Zwei-Sprecher-Datenbank, und
iii) Durchführen von Experimenten in Situationen des täglichen Lebens mit flüssiger Sprache.

Untersuchungsdatenbank
Die Untersuchung wurde durchgeführt, indem sehr große Datenbanken von zwei Sprechern verwendet werden, die informelle, kurze emotionelle Äußerungen enthalten. Alle Experimente wurden mit Hilfe der frei verfügbaren Data-Mining-Software Weka durchgeführt, die die meisten der Standard-Data-Mining-Techniken implementiert, wobei Informationen darüber auf der Weka-Website bei http://www.cs.waikato.ac.nz/~ml/ gefunden werden können.
Um ausreichend große Datenbanken zu erhalten, mussten einige Kompromisse gemacht werden (die Aufzeichnungsbedingungen, die in Slaney et al, 1998 oder Breazal 2000 beschrieben wurden, sind ziemlich schlecht und unpraktisch). Demgemäß verwendete die Datenbank, die für die experimentelle Untersuchung verwendet wurde, zwei professionelle japanische Sprecher (einem männlichen und einer weiblichen), die beide Sprachdarsteller sind und in vielen Radio/TV-Werbesendungen sowie an japanischen Synchronisationen von Filmen und Animationen gearbeitet haben. Sie wurden gebeten, alltägliche Sprache durch Ausdrücke von kurzen Sätzen oder Äußerungen wie „Mhhmm", „Ich weiß nicht", „Genau!", „Schau her!", „Hallo!", „Ich verstehe", „Wie geht es Ihnen?", „Was für Essen möchten Sie?", „Wunderbar!", „Wissen Sie" nachzusprechen. Vor jeder Äußerung mussten sie sich in eine Situation versetzen, in der sie den Satz wiedergeben könnten, und die einer der vier Emotionsklassen entsprechen würde: Freude/Vergnügen, Sorge/Traurigkeit/Gram, Wut, Normalität/Neutralität. Wenn mehrere Emotionen mit der Bedeutung des Satzes kompatibel waren, wurde ihnen erlaubt, jeden Satz mit der entsprechenden Emotion auszusprechen. Die resultierende Datenbank umfasste 200 Beispiele pro Sprecher und pro Emotion mit insgesamt 2000 Sample.
Die Datenbank speicherte die Klangaufnahmen der Sample in digitaler Form, so dass auf jedes Sample auf Wunsch zugegriffen werden konnte und wiedergegeben werden konnte.
Die zwei Hauptmessungen, die betreffend der Intonation vorgenommen wurden, waren die Tonhöhe und die Intensität, wie es in allen oben angeführten Arbeiten vorgenommen wurde.
Die 2a–2c stellen dar, wie die zwei physikalischen Parameter Tonhöhe und Intensität von dem Sprachsignal abgeleitet werden. Das letztere ist in 2a als eine Hillkurve dargestellt, die man z. B. direkt von einem Mikrofonausgang oder von der Wiedergabe eines Sprach-Sample erhalten kann. Der Signalverlauf ist die Schwankung der Signalamplitude (vertikale Achse) als Funktion der Zeit (horizontale Achse). In der Darstellung wird die Signalstärke einem Nullwert auf der Mittelwertposition zugeordnet, von der aus sie negative (niedrige Amplitude) und positive (hohe Amplitude) Werte annehmen kann.
Die Tonhöhe ist eine subjektive Qualität eines Klangs, die seine Position in einer Tonleiter oder in einem Sprachspektrum bestimmt. Sie kann als Frequenz des reinen Tons der bestimmten Intensität gemessen werden, die von dem durchschnittlichen Ohr als die gleiche Stelle der Tonleiter oder des Sprachspektrums belegend angesehen wird. 2b zeigt eine Variation der Tonhöhe über der Zeit. Hier wird die Tonhöhe gemäß einer Frequenz (vertikale Achse) für einen bestimmten Zeitwert gemessen.
Die Intensität ist eine Messung der Klangenergie, die über ein bestimmtes Frequenzspektrum integriert wird. 2c stellt die Variation der Intensität über der Zeit dar, wobei die Intensität als Dezibel (dB) gemessen wird.
Zusätzlich wurden gemäß einem Merkmal, das für die vorliegende Erfindung spezifisch ist, Messungen einer Tiefpass gefilterten Form des elektronischen Signals vorgenommen, das die Äußerungen enthält und nachfolgend als das Sprachsignal bezeichnet wird.
3 zeigt schematisch ein System 1 zum Bewerten der Leistungsfähigkeit bei der Erkennung einer Emotion mit der Möglichkeit des Tiefpassfilterns des Sprachsignals.
Das Sprachsignal erhält man entweder direkt von einem Mikrofon 6 oder von der oben beschriebenen Datenbank von aufgezeichneten Äußerungen 8. Im letzteren Fall kann jedes der Sample wahlweise in einem Audioformat, z. B. von einem Festplattenlaufwerk, ausgelesen werden, um so ein Audiosignal der entsprechenden Äußerung an einem Audioausgang 10 zu erhalten. Das Signal von dem Mikrofon 6 oder dem Audioausgang 10 der Datenbank wird einem Audioeingang 12 einer Audioverstärkereinheit 14 zugeführt, die eine Impendanzanpassung, eine Vorverstärkung und steuerbare Verstärkungsfunktionen bereitstellt. Das so vorbereitete Audiosignal wird einem Audioausgang 16 zugeführt, von wo es einem Tiefpassfilter 18 zugeführt wird. In dem System 1 weist der Tiefpassfilter 18 eine anpassbare Grenzfrequenz Fco auf, deren Wert durch eine Grenzfrequenzauswahleinheit 20 ausgewählt wird.
4 zeigt eine typische Frequenzantwort des Tiefpassfilters 18 mit einer Kurve 22, die die Variationen des übertragenen Audiosignalpegels über der Frequenz für einen Eingang mit einer konstanten Amplitude über dem Frequenzbereich darstellt. Die Grenzfrequenz Fco wird als der Punkt bei einer halben Dämpfung entlang der Frequenzskala gezeigt. Idealerweise entspricht die Grenzfrequenz dem Frequenzwert jenseits von dem der Tiefpassfilter kein Signal überträgt. Die Schärfe hängt von der Filterkennlinie ab, z. B. der Ordnung des Filterns, um sich an den idealen Tiefpassfilterantwort 24 anzunähern.
5 zeigt, wie sich die Frequenzantwort gemäß der Grenzfrequenz Fco ändert, die durch die Auswahleinheit 20 ausgewählt wird, mit den drei Kurven, die als 22a, 22b und 22c, die den jeweiligen Fco-Werten von 200 Hz, 250 Hz und 320 Hz entsprechen, dargestellt ist. Die Form der Antwortkurven ist im Wesentlichen die gleiche. In dem System der 3 weist der Tiefpassfilter eine kontinuierlich anpassbare Grenzfrequenz Fco auf, um feine Pegelvergleiche zu erhalten. Die Grenzfrequenzauswahleinheit 20 kann elektronisch gesteuert werden, um eine Filterkomponente zu variieren, wie z. B. eine oder mehrere Varicap-Dioden.
Der Filter 18 ist als ein analoger Schaltkreis mit Hilfe von Operationsverstärkern aufgebaut. Solche Tiefpassfilter mit anpassbarer Grenzfrequenz sind im Stand der Technik wohl bekannt und werden hierin aus Gründen der Klarheit nicht weiter beschrieben. Selbstverständlich kann es als gleichwertig angesehen werden, die Tiefpassfilterfunktion vollständig durch digitale Filtertechniken z. B. mit Hilfe von digitalen Signalprozessoren zu realisieren, die ebenso aus dem Stand der Technik wohl bekannt sind. In diesem Fall würde das zugeführte Audiosignal anfänglich digitalisiert werden, um es durch die Filterelektronik zu verarbeiten, wobei die letztere die Antwortkurve 22 in eine geeignete digital codierte Form erzeugt.
Die Ausgabe von dem Tiefpassfilter 18 wird dann einem ersten Eingang 28a einer Audioschnittstelle 28 einer Merkmalsmessstation 30 zugeführt, die als eine funktionelle Einheit dargestellt ist, die mit einer PC-basierten Steuereinheit 32 zusammen arbeitet.
Es gibt auch einen getrennten Pfad, der von dem Audioausgang 16 direkt zu einem zweiten Eingang 28b der Audioschnittstelle 28 der Merkmalsmessstation 30 führt. Die zwei Eingänge 28a und 28b stellen getrennte Eingangskanäle dar, die es der Merkmalsmessstation 30 ermöglichen, wahlweise das Audiosignal in seiner Tiefpass gefilterten Form und in seiner nicht gefilterten Form zu verarbeiten.
Die PC-basierte Steuereinheit 32 ist aus einem Monitor 34 und einer Tastatur 36, die die Systemschnittstelle bildet, und einem vollständigen PC-artigen Computer 38 für die Verarbeitung, einem Laufwerk und Datenspeicherfunktionen zusammengesetzt. Die Merkmalsmessstation 30 ist programmierbar, um verschiedene Merkmale des Signals, das an seinem Signaleingang 28 anliegt, zu extrahieren. Da die Merkmalextraktion, die von der Station 30 zur Verfügung gestellt wird, auf digitalen Verarbeitungstechniken basiert, ist sein Signaleingang 28 an einen internen Analog-Digital-Wandler (ADC) 40 angeschlossen. Das gefilterte Audiosignal wird dann als Binärworte verarbeitet, um die notwendigen Merkmale zu extrahieren, die nachfolgend erläutert werden.
Die Messungen der verschiedenen Merkmale, die durch die Station 30 vorgenommen werden, werden in einem Datenprotokollierer 42 gespeichert, wo auf sie durch eine funktionale Einheit 44, die Emotionserkennungsalgorithmen durchführt, zugegriffen werden kann. Die Algorithmen zielen darauf ab, eine in einem Sprachsignal ausgedrückte Emotion auf Basis der Signalmerkmale, die durch die Station 30 extrahiert werden, herauszufinden. Typischerweise zeigt ein zu überprüfender Algorithmus in der Einheit 44 die herausgefilterten Emotionen (Ruhe, Glücklichkeit) und verschiedene interne Parameter an. Die Erkennungseinheit 44 kann somit verschiedene Emotionserkennungsalgorithmen ausführen und ihre entsprechenden Ergebnisse und internen Parameter erzeugen.
Diese Information wird einer Ergebnisanalyseeinheit 46 zugeführt, in der verschiedene Algorithmen und/oder Merkmalsauswahlen hinsichtlich der Bestimmung einer optimalen Auswahl verglichen werden können.
Es kann vorgesehen sein, dass die funktionalen Einheiten, die aus der Merkmalsmessstation 30, dem Datenprotokollierer 42, der Ausführungseinheit 44 für den Emotionserkennungsalgorithmus und dem Ergebnisanalysierer 46 zusammengesetzt sind, physikalisch durch die PC-basierte Steuereinheit 32 implementiert sein können, wie es durch die gestuften Doppelpfeile angegeben ist.
Das System umfasst weiterhin eine Programmiereinheit PU, deren Funktion darin besteht, verschiedene Emotionserkennungssystem auf Basis der am besten geeigneten Ergebnisse zu programmieren. Bis dahin ist die Programmiereinheit PU funktional mit dem Ergebnisanalysierer 46 sowie mit der PC-basierten Steuereinheit 32 und anderen Einheiten verbunden, um so alle Algorithmen, Parametereinstellungen, zu extrahierende Merkmale und andere Optimierungen aufzuzeichnen. Die Aufzeichnung dieser Information wird gemäß einem vorbestimmten Protokoll durchgeführt, so dass die Programmierdaten in eine geeignete Programmierschnittstelle eines emotionsempfindlichen Systems, wie z. B. ein Roboterhaustier und dgl., heruntergeladen werden können. Die Programmiereinheit PU kann von dem Rest des Systems lösbar vorgesehen sein und für eine Feldprogrammierung tragbar sein und/oder zum Erzeugen von Programmdaten auf einem tragbaren Aufzeichnungsmedium, wie z. B. einer Disc, einem Halbleiterspeicher und dgl. ausgebildet sein.
Die durch die Merkmalsmessstation 30 durchgeführten Messungen basierten auf der Intensität der Tiefpass gefilterten Form des Sprachsignals, das man von dem Filter 18 erhalten hat. (Davon unabhängige Experimente wurden auch auf den Hochpass gefilterten Formen durchgeführt, bei denen statt dessen ein Hochpassfilter verwendet wurde.)
Für das Tiefpassfiltern wurde die Grenzfrequenz üblicherweise auf 250 Hz eingestellt (der bestimmte Wert scheint nicht entscheidend zu sein), wobei die Idee darin besteht, das Signal in eine reine prosodische Komponente und eine reine „cepstrale" Komponente aufzuteilen.
Die Sample von der Datenbank 8 stellen somit Klangmuster bereit, auf denen verschiedene Messungen in der Station 30 vorgenommen werden können. Psychoakustische Messungen haben ergeben, dass die wichtigste Information die Prosodie (die Intonation) ist und insbesondere die Tonhöhenkurve (f0) (s. 2b) und die Intensitätskurve (I0) (s. 2c) sind.
Bei der Bewertung wurden drei verschiedene Signale durch die Station 30 verarbeitet:

i) die Intensität des Signals nach dem Tiefpassfiltern,
ii) die Intensität des Signals ohne ein Tiefpassfiltern, und
iii) die Tonhöhe des Signals ohne ein Tiefpassfiltern.

Das erste Signal i) wird dem Eingang 28a entnommen, während die letzten zwei Signale von dem Eingang 28b der Merkmalsmessstation 30 entnommen werden.
Es wird angemerkt, dass die Tonhöhe des Signals auch nach dem Tiefpassfiltern entweder anstelle des nicht gefilterten Signals iii) oder zusätzlich gemessen werden kann, wobei die Anzahl der Signale bei der Bewertung insgesamt vier entspricht. Jedoch haben Experimente gezeigt, dass die durch die Tonhöhe bereitgestellte Information, die von dem Tiefpass gefilterten Signal analysiert wird, im Allgemeinen nicht erheblich von derjenigen abweicht, die durch die Tonhöhe des ungefilterten Signals bereitgestellt wird. Demgemäß werden nur Signale i) bis iii) tatsächlich bei der Bewertung benutzt.
Nach dem Tiefpassfiltern wurde die Intensitätskurve des resultierenden Signals i) auf dieselbe Weise gemessen wie die für das ungefilterte Signal.
Abschließend, der Vollständigkeit halber, wurde eine cepstrale Messung von Signalen iv) durchgeführt, die von der Normalen der absoluten Vektorableitung der ersten zehn MFCC (mel-frequency cepstral components) berechnet werden. Bei der Spracherkennung wird zu jedem Zeitschritt häufig eine Messung des cepstralen Inhaltes durchgeführt, der ein Parameter darstellt, der zur Anregung der verschiedenen Nerven in dem Cochlea äquivalent ist. Diese können verschiedenen cepstralen Koeffizienten des Signals entsprechen. Die Messung führt die Mittelwertbildung der lokalen Steigung der Ableitungen der Vektoren in dem Cepstra durch. Üblicherweise ergeben diese Messungen zehn Koeffizienten mit zehn Werten, die sich über die Zeit ändern und stellen die Differenz zwischen aufeinander folgenden Vektoren dar, von denen man die Norm der Vektoren ableiten kann.
Alle diese obigen Messungen i)–iv) wurden zu jedem Zeitfenster zu 0,01 Sekunden mit Hilfe eines Signalverarbeitungs-Toolkits durchgeführt, das frei unter dem Namen „Praat Software" erhältlich ist, worüber man Informationen auf der Website http://www.praat.org erhalten kann.
Insbesondere wurde die Tonhöhe mit Hilfe des in Boersma P. (1993) -„Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound", in Proceedings of the Institute of Phonetic Sciences of the University of Amsterdam, 17, 97–110 1993, beschriebenen Algorithmus berechnet, der als sehr genau bekannt ist.
Nachfolgend werden die cepstralen Messsignale iv) nicht bei der Wertung berücksichtigt; nur Messungen der Signale i)–iii), die oben angeführt sind, sollen berücksichtigt werden.
Jede der Messungen stellt eine Reihe von Werten zur Verfügung, die transformiert wurden, um verschiedene Ansichtspunkte der Daten zu erhalten.
Das Verfahren zum Erhalten der Reihe von Werten ist wie folgt: Für ein bestimmtes Sprach-Sample aus der Datenbank 8, das üblicherweise einem kurzen Satz entspricht, speichert die Merkmalsmessstation 30 das entsprechende Sprachsignal, das an dem Eingang erzeugt wird (Kanal 28a oder 28b, abhängig von dem zu analysierenden obigen Signal i), ii), iii)). Die Signale werden anfänglich auf 10 Hz geglättet.
Aus diesen 10 Hz geglätteten Signalen wird jedes der oben beschriebenen drei zeitlich variierenden Signale i)–iii) berechnet.
Jedes so berechnete Signal i)–iii) wird digital bei z. B. in Intervallen zu 0,01 Sekunden abgetastet. Jedes Abtasten erzeugt einen absoluten Momentanwert der Intensität (Signale i) und ii)) oder der Tonhöhe (Signal iii)).
Für jedes abgetastete Signal erhält man somit eine Folge von Abtastwerten, üblicherweise einige hundert, vorausgesetzt, dass ein Satz mehrere Sekunden lang ist.
Die Abfolge der Werte wird in zeitlicher Reihenfolge gespeichert, beginnend mit dem Wert des frühestens Teils des Signals, so dass die Abfolge der Werte die zeitliche Variation des betrachteten Signals i), ii) oder iii) angibt.
Für jedes Signal wird die entsprechende zeitlich geordnete Abfolge von Werten analysiert, um die folgenden vier Wertereihen zu erzeugen:

1) Die Reihe der lokalen Minima. Dies beinhaltet das Bestimmen der Werte der Abfolge, die einem Minimum entspricht und dem Konstruieren einer Reihe, die aus diesen Minimalwerten der Abfolge gebildet wird. Die Reihe wird in zeitlicher Reihenfolge gespeichert, beginnend mit dem frühesten Minimum. Ein Minimum der Abfolge von Werten wird als ein Element der Abfolge identifiziert, dessen Wert kleiner ist als der seines unmittelbar vorangehenden und unmittelbar nachfolgenden Nachbarn in der Abfolge.
2) Die Reihe der lokalen Maxima. Dies beinhaltet das Bestimmen der Werte in der Abfolge, die einem Maximum entspricht und dem Ausbauen einer Reihe, die aus diesen Maximalwerten der Abfolge gebildet ist. Die Reihe wird in zeitlicher Reihenfolge gespeichert, beginnend mit dem frühesten Maximum. Ein Maximum in der Abfolge von Werten wird als ein Element der Abfolge identifiziert, dessen Wert größer ist als der seines unmittelbar vorangehenden und unmittelbar in der Abfolge nachfolgenden Nachbars.
3) Die Reihe von Zeitdauern (Zeitintervallen) zwischen lokalen (benachbarten) Extremen (wodurch rhythmische Aspekte des Signals moduliert werden). Ein Extremum ist entweder ein Minimum oder ein Maximum. Dies beinhaltet zunächst das Identifizieren der Werte in der Abfolge, die einem Minimum oder einem Maximum entsprechen, indem jeder Wert mit seinem unmittelbar vorangehenden Nachbarn, wie bei den obigen Reihen 1) und 2). Dann werden die zeitlichen Positionen der identifizierten Extrema analysiert, um die Zeitintervalle, die aufeinander folgende Extrema trennen, zu bestimmen. Diese Zeitintervalle werden in einer Reihe erfasst, beginnend mit dem Intervall, das das früheste und nächst früheste Extremum voneinander trennen, um die Reihe der Zeitintervalle zu erhalten.
4) Die Reihe selbst. Dies beinhaltet einfach das Bilden einer Reihe aus allen aufeinander folgend abgetasteten Werten der Abfolge, beginnend von dem Beginn des abgetasteten Sprachsignals.

6 zeigt, wie man diese vier Reihen von Werten aus dem der Messung unterzogenen Signal erhält.
Es wird angemerkt, dass für jedes oben gemessene Signal i)–iii) die vier obigen Reihen von Werten 1)–4) extrahiert werden, wodurch man insgesamt 12 Reihen von Werten pro Audio-Sample der Datenbank erhält.
Abschließend werden die folgenden zehn statistischen Eigenschaften für jede der zwölf Serien von Werten berechnet:

1) der Mittelwert,
2) das Maximum (d. h. der insgesamt höchste Wert),
3) das Minimum (d. h. der insgesamt niedrigste Wert),
4) die Differenz zwischen dem Maximum und dem Minimum,
5) die Varianz,
6) der Median,
7) das erste Quartil,
8) das dritte Quartil,
9) der Interquartilbereich, der als Differenz zwischen dem ersten und dem dritten Quartil definiert ist,
10) der Mittelwert des absoluten Wertes der lokalen Ableitung.

Alle Daten werden anfänglich normalisiert, bevor diese statistischen Eigenschaften berechnet werden.
Die resultierende Kombination dieser zehn Eigenschaften, die auf die vier Reihen angewendet werden, führt zu 3·4·10 = 120 Merkmalen.
Lernalgorithmen
Nachdem man alle diese Werte für jedes Signal erhalten hat, wurde als nächstes ein Experiment ausgeführt, das verschiedene automatisierte Lernmethoden durchgeführt hat. Die letzteren sind in der Lage, von einer bestimmten Anzahl von Beispielen zu lernen und zu verallgemeinern. Viele solcher Verfahren sind bekannt, wobei jedes seine Vorteile und Nachteile hat. Der vorliegende Ansatz macht ziemlich erschöpfenden Gebrauch von diesen Algorithmen.
Jeden getesteten Lernalgorithmus wird eine Grundmenge von Beispielen zugeführt. Die Leistungsfähigkeit für jede festgelegte Grundmenge wird dann gegen eine andere beispielhafte Grundmenge überprüft. Dies ermöglicht es, einen Prozentsatz von korrekten Verallgemeinerungen zu bestimmen, die durch jeden Lernalgorithmus vorgenommen werden.
Es gibt viele Lernschemata, die in den letzten 20 Jahren entwickelt worden sind (z. B. Witten, I. Frank E. (2000) „Data Mining", Morgan Kaufflan Publishers) und sie sind oft nicht äquivalent zueinander: einige sind effizienter mit bestimmten Typen von Klassenverteilungen als andere, während andere besser darin sind, mit vielen irrelevanten Merkmalen umzugehen (was, wie man später sieht, hier der Fall ist) oder mit strukturierten Merkmalsgruppen (denen dieses die „syntaktische" Kombination der Werte der Merkmale ist, die sehr bedeutsam ist). Da gemäß Definition die Struktur der Daten und/oder der Relevanz/Irrelevanz dieser Merkmale unbekannt ist, wird es ein Fehler sein, das Problem nur mit sehr wenigen Lernschemata zu untersuchen. Folglich wurde entschieden, eine Gruppe der repräsentativsten Lernschemata zu verwenden, die von neuronalen Netzwerken zu Regelinduktion oder Klassifizierung durch Regression reicht. Auch eines der besten Meta-Lernschemata wurde verwendet, nämlich AdaBoostM1 (Witten and Frank, 2000, wie oben angeführt), das die Verallgemeinerungsleistung für unstabile Lernschemata wie Entscheidungsbäume (ein unstabiler Lernalgorithmus ist einer, der manchmal sehr verschiedene Erkennungsmaschinen erzeugen kann, wenn nur eine kleine Änderung in der Lerndatenbank vorgenommen worden ist) erheblich verbessert. Ein Grund für das Auswählen der Weka Software lag darin, dass sein Code und seine Ausführbarkeit frei verfügbar sind, so dass das Experiment in seiner gesamten Breite einfach nachvollzogen werden kann. Diese Software stellt auch Mittel wie eine automatische Kreuzvalidierung oder die Suche von Merkmalsräumen mit z. B. genetischen Algorithmen zur Verfügung, wie es später beschrieben wird. Die Liste aller Lernalgorithmen wird in der nachfolgenden Tabelle I angegeben.
Tabelle I: Liste der untersuchten Lernalgorithmen
Weitere Details über diese Details können in Witten und Frank, 2000, die oben aufgeführt sind, gefunden werden.
In einem ersten Experiment wurde eine Bewertung durchgeführt, bei der alle Algorithmen allen (normalisierten) Merkmalen zugeordnet wurden und mit 90 Prozent der Datenbank trainiert wurden und mit den verbleibenden 10 Prozent getestet wurden. Dies wurde zehnmal wiederholt, wobei jedes Mal eine unterschiedliche 90/10 Prozent-Aufteilung erfolgt ist (eine zehnfache Kreuzbewertung wurde somit durchgeführt).
Nachfolgende Tabelle II gibt den durchschnittlichen Prozentsatz der korrekten Klassifikationen für die zehnfache Kreuzvalidierung der verschiedenen verwendeten Algorithmen an.
Tabelle II: Ergebnisse bei Verwendung aller Merkmale von zwei verschiedenen Sprechern (1 und 2)
Man kann bei diesen Ergebnissen beobachten, dass man eine sehr Erfolgsrate (zwischen 92 und 97 Prozent), die höher ist als jedes andere in der Literatur berichtete Ergebnis, durch die Verwendung von bestimmten Algorithmen erhalten kann. Jedoch ist der Unterschied zwischen den Algorithmen erheblich: Wenngleich man die besten Ergebnisse man mit den „Aidaboosted" Entscheidungsbäumen und Regeln erhielt, lieferten einige andere nur 10 Prozent darunter liegende (wie „nächste Nachbarn", „RBF neuronale Netze" oder „Support-Vektor-Maschinen", die typischerweise bei anderen Untersuchungen verwendet wurden) oder sogar 20 Prozent darunter liegende (Gruppen von Perzeptronen). Dies zeigt, dass man aufpassen muss, wenn man versucht, viele verschiedene Lernschemata auszuprobieren, wenn man ein Problem lösen will, über das es sehr wenig Vorwissen oder intuitives Wissen gibt.
Merkmalsauswahl
Nach diesem ersten Experiment besteht der nächste Schritt darin, herauszufinden, wie die Merkmalsgruppe reduziert werden kann, aus drei Gründen:

1) Man kann erwarten, dass eine kleine Merkmalsgruppe eine bessere Verallgemeinerungsleistung hervorbringt (s. Witten and Frank, 2000, wie oben angeführt);
2) Es ist rechentechnisch günstiger, weniger Merkmale zu verarbeiten;
3) Es ist interessant herauszufinden, ob die nützlichsten Merkmale für die Maschinenlernalgorithmen diejenigen sind, die auch sonst in der psychoakustischen Literatur herausgestellt sind.

Ein erster Weg, die Merkmalsgruppe herauszufinden, besteht darin, sich die Ergebnisse der Lernschemata wie Entscheidungsregeln (PART) anzuschauen, die oft hauptsächlich als Einrichtungen zur Ermittlung von Wissen verwendet werden.
Eine bestimmte Auswahl von Regeln und Parametrisierungen, die von dem Anmelder erzeugt und getestet wurden, ist:
Beispiel 1

If MEDIANINTENSITYLOW > 0.48 and
MINMINIMASPITCH <= 0.07 and
THIRDQUARTINTENSITY > 0.42 ==> CALM
ELSE If MEANINTENSITYLOW <= 0.58 and
MEDIANINTENSITYLOW <= 0.29 ==> ANGRY
ELSE If THIRDQUARTINTENSITYLOW > 0.48 ==> SAD
ELSE ==> HAPPY
(Das Symbol „<=" bedeutet „kleiner als oder gleich").
Alle numerischen Werte sind normalisiert.

Die Definition der deklarierten Variablen in dem obigen Algorithmus ist wie folgt:

– MEDIANINTENSITYLOW: der Medianwert der Reihen der Werte der Intensität des Signals nach dem Tiefpassfiltern;
– MINMINIMASPITCH: der Wert des kleinsten Minimums in der Reihe der Minima in der Tonhöhe des Signals ohne Tiefpassfiltern;
– THIRDQUARTINTENSITY: der Wert des dritten Quartils in der Reihe der Werte der Intensität des Signals ohne Tiefpassfiltern;
– MEANINTENSITYLOW: der Mittelwert der Reihe der Intensitätswerte des Signals nach dem Tiefpassfiltern;
– THIRDQUARTINTENSITYLOW: der Wert des dritten Quartils in der Reihe der Intensitätswerte des Signals nach dem Tiefpassfiltern.

Diese vier und überraschend einfachen Regeln ermöglichen einen bemerkenswert hohen Prozentsatz von korrekten Klassifikationen bei einer Verallgemeinerung von 94 Prozent für die Sprecher 2- Datenbank. Die auffallende Tatsache besteht in dem wiederholten Gebrauch der Merkmale, die die Intensität des Tiefpass gefilterten Signals betreffen.
Verschiedene Gruppenregeln können für eine optimierte Leistung mit verschiedenen Sprechern/Sprachen angepasst werden. Die Wahl einer geeigneten Gruppe von Regeln für einen bestimmten Sprecher/Sprache kann empirisch bestimmt werden.
Eine andere Ansicht der Merkmalsgruppe kann man einfach durch Visualisierung erhalten. Ein Beispiel einer solchen Visualisierung ist in 7a–7c dargestellt, wobei jede ein Beispiel einer Reihe von Messungen für ein Merkmal i, j und k darstellt, die jeweils aus untersuchten 160 Merkmalen, wie oben beschrieben, ausgewählt sind. Für jede Reihe ist ein Raum in einem rechtwinkligen Kästchen 48a-48c definiert, in das eine Anzahl von Punkten eingetragen ist. Jeder eingetragene Punkt entspricht einer Identifikation der Sprach-Sample der Datenbank 8. Die Position eines Punktes entspricht dem zugeordneten Messwert für das betrachtete Merkmal (entlang der horizontalen Skala). Die Emotion, die den aufgetragenen Samples entspricht, wird durch den folgenden Schlüssel identifiziert: Punkt = Ruhe, Kreuz = Traurigkeit, Strich = Wut, Kreis = Glücklichkeit. In dem vollständigen Experiment werden 160 solcher Linien erzeugt, für jedes Merkmal eine.
7a zeigt eine typische Haphazard-Verteilung von Sample einer identifizierten Emotion, die zeigen, dass das Merkmal i, von dem sie erzeugt sind, keine gute Basis für das Erkennen von Emotionen angibt. Jedoch gibt es eine Überlappung zwischen benachbarten Clustern. Eine solche Verteilung ist ziemlich typisch für ein Merkmal, das von einem Sprachsignal extrahiert wird, dessen Intensität in den Beispielen mit einer Grenzfrequenz (f0) bei 250 Hz Tiefpass gefiltert worden ist.
Abschließend zeigt 7c eine noch bessere Verteilung der Sample der identifizierten Emotionen, wobei die Sample der Emotionen nicht nur gut geclustert sind, sondern auch klar durch leere Bereiche voneinander getrennt sind. Solche Ergebnisse erhält man mit einigen Merkmalen, die von einem Sprachsignal extrahiert werden, dessen Intensität Tiefpass gefiltert worden ist.
(Es wird angemerkt: Um ein Durcheinander zu vermeiden, sind nur ein repräsentativer Anteil der Sprach-Sample in der Figur eingetragen.)
Die beeindruckenden Ergebnisse, die man durch das Tiefpassfiltern der Intensität des Sprachsignals erhält, wurde mit verschiedenen Sprechern bestätigt.
In dem Experiment wurden sechs Merkmale aus der Gruppe ausgewählt, um das beste Clustern von Sample von Emotionen bei mindestens einigen Leerbereichen zwischen ihnen zu erreichen.
Im Allgemeinen erhält man die besten Ergebnisse durch Berücksichtigen der folgenden Merkmale der Tiefpass gefilterten Intensität des Sprachsignals:

– Quartile, insbesondere das erste und das dritte Quartil,
– Maxima,
– Minima, und
– den Mittelwert.

Im Gegensatz dazu erhält man die am wenigsten schlüssigen Ergebnisse aus Merkmalen, die die Varianz oder den Mittelwert der absoluten Steigung des Tiefpass gefilterten Signals umfassen.
Um die Annahme des Anmelders zu bestätigen, dass die Tiefpass gefilterte Intensität bei der Unterscheidung von Emotionen wesentlich ist, zeigen die 8a und 8b Darstellungen von identifizierten Emotionen aus den Sample der Datenbank 8. In diesen Darstellungen werden zwei Merkmale, für die vermerkt ist, dass sie eine potentiell gute Emotionserkennung erreichen, auf entsprechenden orthogonalen Achsen dargestellt: Das erste Quartil der Intensitätsverteilung auf der vertikalen Achse (Ordinatenachse) und das dritte Quartil der Intensitätsverteilung auf der horizontalen Achse (Abszisse). Die Symbole, die verwendet werden, um die vier verschiedenen Emotionen zu identifizieren, sind die gleichen wie in den 7a–7c. Auf ähnliche Weise werden nur ein repräsentativer Anteil von Symbolen eingefügt, um ein Durcheinander zu vermeiden.
Die Darstellungen der 8a werden aus den Sprach-Sample der Datenbank ohne ein Tiefpassfiltern erzeugt, während die Darstellungen der 8b aus den gleichen Sprach-Sample erzeugt werden, jedoch nach einem Tiefpassfiltern bei einer Grenzfrequenz von 250 Hz mit Hilfe des Filters 18 der 3. Die Sprach-Sample stammten in beiden Fällen von dem gleichen Sprecher (Sprecher 2). Der gleiche, sehr einschlägige Effekt tritt auch für Sprecher 1 auf; Was jedoch interessant ist, ist, das die Cluster nicht an denselben Stellen angeordnet sind (Wut und Glücklichkeit sind um 90 Grad verdreht) wodurch die große Sprechervariabilität ersichtlich wird, die anfänglich angenommen wurde. Jedoch scheint es, dass die Verwendung von einigen gut ausgewählten Merkmalen für jeden Sprecher sehr stabil ist.
Um die individuelle Relevanz von Merkmalen oder Attributen zu quantifizieren, gibt es eine Maßzahl, die oft in der Data-Mining-Literatur verwendet wird, die den erwarteten Informationsgewinn oder die gegenseitige Information zwischen Klasse und Attribut bezeichnet. Sie entspricht der Differenz zwischen den Entropien H(Klasse) und H(Klasse|Attribute) (s. Witten und Frank, 2000, wie oben angeführt, für eine ausführliche Beschreibung, wie diese berechnet werden). Die nachfolgende Tabelle III gibt die 20 besten Attribute gemäß dem Informationsgewinn, den sie bereitstellen, an.
Tabelle III: Informationsgewinn der 20 besten Merkmale
Diese Tabelle bestätigt den großen Wert der Merkmale, die die ersten sechs Gruppen der Verteilung der Intensitätswerte, die die Tiefpass gefilterten Signale einschließen, betreffen. Sie zeigt auch etwas ziemlich Überraschendes: Unter den 20 meist unabhängigen informativen Merkmalen sind nur drei (die Merkmale der Nummern 12, 16 und 20 in der Tabelle) Teil der Standardgruppe, die in psycho-akustischen Studien hervorgehoben werden (Murray E., Arnott J. L., (1995) „Implementation and testing of a system for producing emotin-by-rule in synthetic speech", Speech Communication, 16(4), S. 369–390; Sendlmeier and Burkhardt 2000, wie oben angeführt, Stevens and Williams 1972, wie oben angeführt) oder in meisten von weiteren anwendungsorientieren Untersuchungen wie in Slaney et. al. 1998, wie oben angeführt, Breazal 2000, wie oben angeführt.
Nichts desto weniger muss angemerkt werden, dass das einzelne Hervorstechen eines Merkmals nur teilweise interessant ist: Es ist nicht selten, dass der Erfolg von einer Kombination aus Merkmalen herrührt. Demgemäß hat der Anmelder in einem ersten Experiment eine Merkmalsgruppe, die nur die Merkmale 1–6 mit Bezug auf die Tiefpass gefilterte Signalintensität (LPF) enthält, mit einer Merkmalsgruppe, die aus den Standardmerkmalen (SF), die in (Breazal 2000 oder Slaney et al. 1998) verwendet wird, verglichen:

1) Mittelwert,
2) Minimum,
3) Maximum,
4) Maximum-Minimum,
5) Varianz der Tonhöhe des ungefilterten Signals,
6) Intensität des ungefilterten Signals, und
7) Durchschnittliche Länge der syllabischen Abschnitte.

(Die Ergebnisse sind ähnlich, wenn Jitter und Tremor hinzugefügt werden, wie es manchmal auch verwendet wird.)
Tabelle IV fasst diese Experimente zusammen (jede Zahl entspricht wieder dem Durchschnittsprozentsatz von korrekten Klassifikationen bei der Verallgemeinerung bei einer 10-fachen Kreuz-Validierung).
Tabelle IV: Vergleich zwischen „Standard"-Merkmalen und Merkmalen betreffend eine „Tiefpass gefilterte Signalintensität"
Die oben aufgeführten Abkürzungen entsprechen Folgendem: (LPF)sp.1 = Tiefpass gefiltertes Signal von einem Sprach-Sample des Sprechers 1, (LPF)sp.2 = Tiefpass gefiltertes Signal eines Sprach-Sample des Sprechers 2, (SF)sp.1 = Standard, nicht gefiltertes Signal von einem Sprach-Sample des Sprechers 1 und (SF)sp.2 = Standard, nicht gefiltertes Signal von einem Sprach-Sample des Sprechers 2.
Diese Tabelle zeigt, dass sogar die Verwendung von nur den Quartilen der Tiefpass gefilterten Signalintensität die Kombination der herkömmlich verwendeten Merkmale übertrifft.
Um die Aufgabe zu lösen, eine sehr effiziente kleine Gruppe von Merkmalen herauszufinden, implementierte der Anmelder ein automatisches Suchverfahren anhand der Verwendung von logischen Algorithmen. Populationen von Merkmalen (auf 30 beschränkt) wurden erzeugt und einem Evolutionsprozess unterzogen, wobei die Fitness der zehnfachen Kreuz-Validierung mit zwei Algorithmen: Naive Bayes und Fünf-nächste-Nachbarn (hauptsächlich gewählt, weil diese schnell zu trainieren sind) verwendet werden. Der genaue genetische Algorithmus ist der einfache, der in Goldberg, D. E. (1989) beschrieben wurde „Genetic algorithms in search, optimization and machine learning, reading", MA: Addison-Wesley.
Das Ergebnis dieses Experiments war nicht offensichtlich: Innerhalb der ausgewählten Merkmalsgruppe gab es Merkmale, die sich auf die Quartile der Tiefpass gefilterten Signalintensität und auf Merkmale, die sich auf die Quartile der Tonhöhe beziehen, jedoch auch Merkmale mit einem relativ geringen individuellen Informationsgewinn: Solche, die sich auf Quartile der Minimas der ungefilterten, geglätteten Intensitätskurve beziehen.
Auch wird es wieder angemerkt, dass der Maschinenlernalgorithmus dazu tendiert, immer Merkmale, die die Varianz oder den Bereich der Verteilungen betreffen, zu vernachlässigen, ungeachtet der Messung.
Ein letztes Experiment, das diese 15 Merkmale mit allen Lernalgorithmen verwendet, wurde durchgeführt (max, min, Median, drittes Quartil und erstes Quartil der Tiefpass gefilterten Signalintensität, Tonhöhe und Minima der ungefilterten Signalintensität).
Die Ergebnisse sind in der nachfolgenden Tabelle V zusammengefasst.
Tabelle V: Ergebnisse des Lernschemas, das die „optimale" Merkmalsgruppe verwendet
Man kann beobachten, dass die erhaltenen Ergebnisse sehr ähnlich zu den anfänglich erhaltenen besten Ergebnissen sind, jedoch mit über zehnmal weniger Merkmalen. Weiterhin ist interessant, dass die Variation zwischen den Lernschemata weniger wichtig ist und Algorithmen, die schlechte Ergebnisse hervorbrachten, wie der Algorithmus des nächsten Nachbarn oder Naive Bayes nun zufriedenstellendere Ergebnisse hervorbrachten.
Wenn nur sehr wenige Beispiele zur Verfügung stehen
In dem vorangehenden Abschnitt wurden große Trainingsdatenbanken verwendet: Dies war optimal, um Merkmale und Algorithmenräume herauszufinden. Wenn man es jedoch mit einer sprecherabhängigen Aufgabe zu tun hat, ist dies nicht direkt anwendbar auf z. B. ein Roboterhaustier in der Realität. Tatsächlich ist es nicht vorstellbar, dass der Besitzer eines solchen Roboters hunderte von überwachten Beispielen angibt, um diesen zu lehren, wie er seine An des Ausdruckens von Grundemotionen erkennt, sogar wenn es die An und Weise ist, die wahrscheinlich bei menschlichen Babys und echten Haustieren geschieht. Tatsächlich sind Leute im Allgemeinen weniger angeregt, eine solche Menge an Zeit mit Roboterhaustieren zu verbringen.
Es wird dann selbstverständlich, nachzufragen, welche Ergebnisse man erhält, wenn nur sehr wenige Trainingsbeispiele gegeben werden.
Bis dahin hat der Anmelder ein Experiment durchgeführt, das die zuvor zugeführte „optimale" Merkmalsgruppe verwendet hat, wobei jedoch für jeden Algorithmus nur 12 Beispiele jeder Klasse angegeben worden sind. Die Algorithmen wurden auf die verbleibenden Elemente der Datenbank getestet.
Dieses Experiment wurde 30 mal mit verschiedenen Gruppen von 12 Beispielen wiederholt und die Ergebnisse wurden gemittelt (die Standardabweichung war ziemlich gering, üblicherweise um 1,1).
Tabelle VI fasst die Ergebnisse des Experiments zusammen.
Tabelle VI: Ergebnisse des Lernschematas, wenn sehr wenige Trainingsbeispiele bereitgestellt werden
Man kann sehen, dass einige der Algorithmen in der Lage sind, ein sehr vernünftiges Leistungsniveau beizubehalten (ungefähr 85 Prozent Erfolg bei der Verallgemeinerung). Zwischen ihnen sind Beispiele von sehr einfachen Algorithmen wie der „1-nächste Nachbar" oder „Naive Bayes". Diese Ergebnisse sind ziemlich vergleichbar (und tatsächlich leicht überlegen, was in Breazal, 2000, die oben angeführt ist, beschrieben wird. Jedoch fand in diesem Fall das Lernen offline mit einer größeren Datenbank von mehreren weiblichen Sprechern statt): Was wichtig ist, ist, dass Breazal Experimente durchgeführt hat und gezeigt hat, dass dieses Erfolgsniveau ausreichend ist, um eine interessante Interaktion mit einem Roboterhaustier zu entwickeln. Auch zeigte Breazal, wie diese Ergebnisse wesentlich verbessert werden konnten, wenn diese in eine größere kognitive Architektur, die in der Realität arbeitet, integriert wird. Zum Beispiel könnte das Einbinden dieses Erkennungsmoduls in ein künstliches limbisches/emotionales System, bei dem es eine An von emotionaler Anregung gibt (ein sehr seltener Wechsel von Glücklichkeit zu Wut in einer halben Sekunde) einige zusätzliche Informationen ergeben oder dem System mitteilen, dass es eine Unsicherheit über das Ergebnis gibt. Folglich kann der Roboter zum Beispiel eine Stellung einnehmen, die angibt, dass er nicht sicher ist über das, was vorgeht. Der Mensch wird dann oft seinen Ausspruch mit einer noch engagierteren Intonation wiederholen.
Schlussfolgerungen über die gesamten Untersuchungen
Aus dem vorangehend Beschriebenen scheint es, dass man mit der richtigen Gruppe von Merkmalen vernünftige Leistungen erreichen kann, wenn nur wenige Beispiele angegeben sind, was in dem Fall von Robotern in der Realität der Fall sein kann.
Das Ziel ist daher, zu versuchen, die Anzahl von Messungen zu reduzieren, wobei ein akzeptables Leistungsniveau beibehalten wird oder möglicherweise besser ist. Tatsächlich sind einige Lernalgorithmen nicht sehr gut geeignet, um eine große Anzahl von Messungen zu verarbeiten, insbesondere wenn diese nicht alle hochrelevant sind. Einige Lernalgorithmen sind von einem konstruktiven Typus. Sie sind interessant, soweit sie darauf abzielen, eine bestimmte Anzahl von Regeln zu erzeugen, die für einen Entwickler zum Klassifizieren von Emotionen lösbar sind. Bei z. B. einer oder zwei Datenbanken gibt es einen Lernalgorithmus, der aus der Masse der Messungen identifiziert, dass es einfach einen Test auf vier ausgewählte Werte vornehmen kann, wodurch akzeptable Ergebnisse erhalten werden können.
Dies ermöglicht es, eine bestimmte Anzahl von Dingen zu erkennen, die als wichtig erscheinen. Diese sind üblicherweise der Wert des Signals, der mit der Intensität des Tiefpass gefilterten Signals verbunden ist. Insbesondere gibt er an, ob der Median der Intensität dieses Signals größer ist als ein vorbestimmter Wert (z. B. 25,75 dB).
Ein Experiment wurde wiederholt, indem der Lernalgorithmus nur die verschiedenen Quartile der Intensität des Tiefpass gefilterten Signals zugeführt wurden. Die Messungen zeigen, dass die besten Lernalgorithmen üblicherweise 80–85 Prozent Erfolgsquote erreichen (verglichen mit 90–95 Prozent für eine vollständige Analyse). Jedoch wird die Berechnung vorwiegend durch die Tatsache, dass keine Tonhöhenanalyse durchgeführt wird, erheblich vereinfacht.
Auf die Datenbank wurden Untersuchungen vorgenommen, die Werte verwenden, die herkömmlicherweise in der Literatur zum Vergleich mit entweder allen Werten oder mit der Tiefpass gefilterten Signalintensität durchführen. Es scheint, dass das Verwenden derselben Datenbank, die die Werte von bekannten Auswahlen erhalten hat, eine Erfolgsquote von üblicherweise 70–75 Prozent hervorbringt. Dies liegt ungefähr 10 Prozent unter den Ergebnissen, die man einfach durch Verwenden der Tiefpass gefilterten Signalintensität erhält.
Eine bestimmte Anzahl von Experimenten wurde durchgeführt, um den besten Kompromiss zwischen einer kleinen Anzahl von Messungen und den Ergebnissen festzustellen. Dies beinhaltete das Erzeugen einer großen Anzahl von Messgruppen, z. B. mit Hilfe eines genetischen Algorithmus und Analysieren des Raumes. Die Schlussfolgerung war, dass man die besten Ergebnisse aus der Kombination der Quartile der Tiefpass gefilterten Signalintensität plus die Quartile der Tonhöhe plus die Quartile des Minimums des normalen (ungefilterten) Signals erhält, was 15 Parameter ergibt. Diese Erfolgsquoten liegen in der Region von 90–97 Prozent, die im wesentlichen die gleichen sind wie die Erfolgsquoten, die man durch Berücksichtigen aller 120 Parameter gemeinsam erhält.
Die nächste Frage ist, festzustellen, ob ein Roboter relativ gut aus einer relativ kleinen Anfangsgruppe von Beispielen verallgemeinern kann. Bis dahin wurde ein Experiment durchgeführt, bei dem den Algorithmen gerade 12 Beispiele pro Klasse bereitgestellt wurden – ergibt 48 Beispiele insgesamt, um festzustellen, bis zu welchem Grad die Ergebnisse verschieden sein würden. Es wurde beobachtet, dass die Unterschiede zwischen den verschiedenen Lernalgorithmen deutlicher wurden. Jedoch gibt es eine bestimmte Anzahl von Standardalgorithmen, die immer noch eine Erfolgsquote im Bereich von 85–90 Prozent erreichen.
Die allgemeinen Ergebnisse der Untersuchung sind durch die Balken-Diagramme der 9–13 dargestellt, die alle die verschiedenen zitierten Lernalgorithmen hinsichtlich der korrekten Klassifikation einer Emotion vergleichen. Für jeden Algorithmus werden zwei Ergebnisse angegeben, was jedem der zwei entsprechenden Sprecher der Datenbank 8 entspricht. Insbesondere:

– zeigt 9 das Ergebnis mit nur der Tiefpass gefilterten Signalintensität für die korrekte Klassifikation bei der Verallgemeinerung von einem Anfangs-Sample an. Die Merkmale sind nur die Tiefpass gefilterten Signalintensität (bei 250 Hz Grenzfrequenz);
– zeigt 10 das Ergebnis mit so genannten „Kismet"-Merkmalen (Kismet entspricht einem System, das durch MIT entwickelt wurde), nämlich: Tonhöhe + Intensität + Länge der Abschnitte;
– zeigt 11 das Ergebnis für die beste Kombination der Merkmale: Tiefpass gefilterte Signalintensität + Tonhöhe + Intensität der Minima;
– zeigt 12 das Ergebnis, wenn sehr wenige Samples verfügbar sind für die korrekte Klassifikation der Verallgemeinerung abhängig von 12 Trainingsbeispielen/Klassen. Die Merkmale, die verwendet wurden, sind: Tiefpass gefilterter Signalintensitätswert + Tonhöhe + Intensität der Minima; und
– zeigt 13 ein Diagramm, das die Ergebnisse hinsichtlich der besten Bewertungen pro Experiment für jede der vorangehenden Diagramme zusammenfasst.

Praktische Ausführung
14 zeigt schematisch, wie die Ergebnisse gemäß der vorliegenden Erfindung in einem emotionsempfindlichen System 60 implementiert werden können. Das Letztgenannte kann Teil eines Roboterhaustiers, eines Humanoiden, einer Lehrvorrichtung, eines interaktiven Computers und dgl. sein. Üblicherweise ist das System auf einem Mikrocomputer hasiert, der alle notwendige Verarbeitungen, Datenspeicherungen, Treiben und Schnittstellenfunktionen, die für Emotionserkennungsprozess notwendig sind, umfasst. Alle diese Einheiten sind als solche bekannt und in geeigneter Weise durch einen Fachmann an die Anwendungserfordernisse anpassbar, so dass sie aus dem Diagramm aus Gründen der Einfachheit weggelassen worden sind.
Das System 60 stellt einen Audioeingabeabschnitt zum Empfangen von Sprachdaten dar, aus dem eine Emotion detektiert werden soll. Die Sprachdaten können aus zwei verschiedenen Quellen erhalten werden: einem eingebauten Mikrofon 62, um Umgebungsgeräusche aufzunehmen, und so wie in einer realen Situation eine Sprachäußerung von einer nahe stehenden Person zu detektieren, für die eine Emotionsdetektion durchgeführt wird, und eine Datenbank von aufgezeichneten Äußerungen, die mit dem System 60 über einen Audioverbinder 64 verbunden werden kann. Die Datenbank kann einfach der Datenbank 8 der 3 entsprechen oder eine angepasste Version dieser sein. Auf diese Weise kann das System vortrainiert, korrigiert, gekennzeichnet usw. werden. Diese Schnittstellenmöglichkeit ist auch nützlich, um alle internen Klangverarbeitungsparameter einzustellen, einschließlich der Tiefpassfilterkennlinien.
Die Sprachsignale von entweder den zwei Quellen 62 und 8 werden einer Audioverstärkung und Vorverarbeitungseinheit 66 zugeführt, die die Signalniveaus der Systemelektronik anpasst. Die Einheit 66 kann auch einige Rauschreduktionsstufen umfassen, um ein Hintergrundrauschen auf ein Minimum zu reduzieren, wenn das Mikrofon 62 in Betrieb ist. Der Audioausgang 68 der Einheit 66 wird entlang einem ersten und einem zweiten Pfad P1 und P2 an zwei entsprechende erste und zweite Kanaleingänge IC1 und IC2 einer Merkmalsextraktionseinheit 70 zugeführt.
Der erste Pfad P1 enthält einen ersten Digital-Analog-Wandler (DAC) 72 zwischen dem Audioausgang 68 und dem ersten Kanaleingang IC1. Der Letztgenannte empfängt dann einfach die geeignete digitale Form des verstärkten und vorverarbeiteten Audiosignals.
Der zweite Pfad P2 enthält einen Tiefpassfilter 74, dessen Eingang mit dem Audioausgang 68 verbunden ist. In diesem Beispiel ist der Tiefpassfilter ähnlich dem Filter 18 der 3, soweit er eine anpassbare Grenzfrequenz aufweist. Üblicherweise wird die Grenzfrequenz (Fco) vorab auf einen Frequenzbereich von 0–250 Hz zum Durchlassen der Signale eingestellt, wobei eine schnelle Dämpfung über diese Frequenz hinaus erfolgt. Die Grenzfrequenz kann auf verschiedene Werte mit Hilfe einer Grenzfrequenzauswahleinheit 76 eingestellt werden. Die Letztgenannte kann manuell mit Hilfe eines Schiebers gesteuert werden, um verschiedene Grenzfrequenzen zu erzeugen und/oder elektronisch durch einen internen Steuerschaltkreis angepasst werden, z. B. in einem Rückkopplungssystem, um optimale Ergebnisse während einer Charakterisierungsphase zu erhalten. Der übliche Bereich der möglichen Werte für die Grenzfrequenz Fco liegt zwischen 150 Hz und 400 Hz. Die Anpassung der Grenzfrequenz kann notwendig sein, um das System 60 auf verschiedene Sprecher, Sprachen, Umgebungen, Varianten von zu detektierenden Emotionen usw. zu optimieren.
Der Tiefpassfilter 74 umfasst weiterhin eine variable Dämpfungssteuerungsvorrichtung 78, die es ermöglicht, dass die Steigung der Frequenzantwortkurve (s. 4) modifiziert wird, z. B. durch Ändern der Ordnung des Filters, um einen weiteren Freiheitsgrad bei der Optimierung der Tiefpassfilterkennlinien zu ermöglichen.
Jedoch muss der Filter 74 weder variabel sein noch eine anpassbare Steigung aufweisen, und einfache Ausführungsformen mit einem festgelegten Tiefpassfilter, der bei einer vorbestimmten Grenzfrequenz von z. B. 250 Hz eingestellt ist, können vorgesehen werden.
Für das System der 3 kann der Tiefpassfilter 74 mit einem Analogschaltkreis (passiv oder aktiv) oder als digitaler Filter implementiert werden. Im letztgenannten Fall ist der DAC 80 nicht weiter notwendig, jedoch würde ein ähnlicher DAC als sein Eingang vorgesehen werden, wenn nicht der digitale Tiefpassfilter seine eigene Digital-Analog-Wandler-Stufe umfasst. In einer praktischen Realisierung würden der Tiefpassfilter 74 und seine Steuereinheiten 76 und 78 üblicherweise vollständig digital sein, so dass die Steuerung der Filterkennlinien einschließlich der Auswahl der Grenzfrequenz über eine Schnittstelle einer PC-basierten Steuereinheit im Kern des Systems 60 digital einstellbar sind.
Die Tiefpass gefilterte Signalausgabe von dem Tiefpassfilter 74 (analog in der Figur) wird einem zweiten Analog-Digital-Wandler 80 zugeführt, der die in geeigneter Weise digitale Tiefpass gefilterte Signale an den zweiten Signaleingang IC2 der Merkmalsextraktionseinheit 70 weiterleitet.
Die Letztgenannte bildet eine erste Verbindung bei der Verarbeitungskette, dessen Funktion darin besteht, eine Emotion, die durch zugeführte Sprachsignale übermittelt wird, zu detektieren.
Der erste Teil der Verarbeitungskette umfasst die Merkmalsextraktionseinheit 70, die programmiert ist, um eine Auswahl von Merkmalen von dem digitalisierten Signal zu extrahieren, von denen einige aus dem Sprachsignal nach dem Tiefpassfiltern (bei Kanaleingang IC2) gemäß der Erfindung extrahiert werden sollen.
Die Merkmalsextraktionseinheit 70 arbeitet in einer analogen Weise zu der Merkmalsmessstation 30 der 3. Insbesondere extrahiert sie selektiv eine Gruppe von Merkmalen, die aus den 120 oben beschriebenen Merkmalen entnommen sind, d. h. die man aus den möglichen Kombinationen erhält:

i) die Intensität des Signals nach dem Tiefpassfiltern (abgeleitet aus dem Signal an Kanal IC2),
ii) die Intensität des Signals ohne Tiefpassfiltern (abgeleitet von dem Signal an Kanal IC1), und
iii) die Tonhöhe des Signals ohne das Tiefpassfiltern (abgeleitet von dem Signal an dem Kanal IC1).

Eine 10 Hz Glättung der obigen Signale wird durchgeführt.
Aus diesen gespeicherten 10 Hz geglätteten Signalen werden jede der drei oben beschriebenen zeitlich variierenden Signale i)–iii) berechnet.
Jedes so berechnete Signal i)–iii) wird in Intervallen zu z. B. 0,01 Sekunden digital abgetastet. Jedes Abtasten ergibt einen absoluten Momentanwert der Intensität (Signale i) und ii)) oder der Tonhöhe (Signal iii)). Für jedes abgetastete Signal erhält man somit eine Abfolge von abgetasteten Werten, üblicherweise einige hundert, die sich aus einem Satz von mehreren Sekunden Länge ergeben. Die so erhaltenen Wertefolgen werden in zeitlicher Reihenfolge gespeichert, beginnend mit dem Wert des frühesten Teils des Signals, so dass die Abfolge der Werte die zeitliche Variation des betrachteten Signals i), ii) oder iii) ausdrückt.
Für jede aus diesen drei Signalen erhaltene Abfolge: Intensität nach dem Tiefpassfiltern, Intensität ohne das Tiefpassfiltern und die Tonhöhe ohne Tiefpassfiltern kann die Merkmalsextraktionseinheit 70 die vier Reihen von Werten berechnen, die oben in Verbindung mit der Merkmalsmessstation 30 der 3 beschrieben worden sind, das sind:

1) Die Reihe der lokalen Minima, indem die Werte in der Abfolge bestimmt werden, die einem Minimum entsprechen und indem eine Reihe, die aus gerade diesen Minimumwerten der Abfolge gebildet ist, aufgebaut wird. Die Reihe wird in zeitlicher Reihenfolge gespeichert, beginnend mit dem frühesten Minimum. Ein Minimum in der Abfolge von Werten wird als ein Element der Abfolge identifiziert, dessen Wert kleiner ist als der seines unmittelbar vorangehenden und unmittelbar nachfolgenden Nachbars in der Abfolge.
2) Die Reihe von lokalen Maxima, indem die Werte in der Abfolge, die einem Maximum entsprechen, bestimmt werden und eine Reihe, die aus gerade diesen Maximumwerten der Abfolge gebildet wird, aufgebaut wird. Die Reihe wird in zeitlicher Reihenfolge gespeichert, beginnend von dem frühesten Maximum. Ein Maximum in der Abfolge von Werten wird als ein Element in der Abfolge identifiziert, dessen Wert größer ist als der seines unmittelbar vorangehenden und unmittelbar nachfolgenden Nachbars in der Abfolge.
3) Die Reihe von Zeitdauern (Zeitintervallen) zwischen lokalen (benachbarten) Extrema – Minima und Maxima – (was rhythmische Aspekte des Signals moduliert), indem in der Abfolge die Werte, die einem Minimum oder einem Maximum entsprechen, identifiziert werden. Dies wird durch Vergleichen jedes Werts mit seinem unmittelbar vorangehenden Nachbarn wie bei den obigen Reihen i) und ii) erreicht. Dann werden die zeitlichen Positionen der identifizierten Extrema analysiert, um die Zeitintervalle, die aufeinander folgende Extrema voneinander trennen, zu bestimmen. Diese Zeitintervalle werden in eine Reihe gebracht, beginnend mit dem Intervall, das früheste und nächst früheste Extrema voneinander trennt, um die Reihe von Zeitintervallen zu erhalten.
4) Die Reihe selbst, durch Bilden einer Reihe aus allen aufeinander folgend abgetasteten Werten der Abfolge, beginnend von dem Beginn des abgetasteten Sprachsignals.

Auf die resultierenden 3×4 (= 12) möglichen Reihen kann die Merkmalsextraktionseinheit die folgenden zehn statistischen Operationen durchführen, um entsprechende Merkmale zu erzeugen:

1) der Mittelwert,
2) das Maximum (d. h. der insgesamt höchste Wert),
3) das Minimum (d. h. der insgesamt niedrigste Wert),
4) die Differenz zwischen dem Maximum und dem Minimum,
5) die Varianz,
6) der Median,
7) das erste Quartil,
8) das dritte Quartil,
9) der Interquartilbereich, der als Differenz zwischen dem dritten und dem ersten Quartil definiert ist,
10) der Mittelwert des absoluten Werts der lokalen Ableitungen.

Selbstverständlich umfassen einige der oben genannten statistischen Merkmale eine Umsortierung der Werte in der Reihe von einer sich zeitlich entwickelten Reihe zu einer Reihe, die durch ansteigende Werte sortiert ist, insbesondere, um das erste Quartil, den Median und das dritte Quartil zu bestimmen.
Alle Daten werten anfänglich normalisiert, bevor diese statistischen Merkmale berechnet werden.
Die Wahl, welche dieser 120 Merkmale extrahiert werden sollen, hängt von den zu verwendenden Algorithmen ab und ist programmierbar. In der Ausführungsform kann die Merkmalsextraktionseinheit 70 programmiert werden, um jede Anzahl dieser Merkmale gemäß den Anforderungen zu extrahieren. Mindestens eines der Merkmale wird von einer Intensität eines Tiefpass gefilterten Sprachsignals abgeleitet, auf das eine Emotionserkennung durchgeführt werden soll.
Als Beispiel kann die Merkmalsextraktionseinheit 70 programmiert werden, um mindestens eines der folgenden fünf statistischen Merkmale aus den zehn oben aufgeführten zu extrahieren:

– das erste Quartil,
– der Median,
– das dritte Quartil,
– das Maximum, und
– das Minimum

Diese Extraktion kann für eines oder eine Kombination aller drei Signale i), ii) und iii), die oben aufgeführt sind, durchgeführt werden, woraus sich bis zu 15 Merkmale ergeben, die durch die Einheit 70 für jedes Sprachsignal, für das eine Emotion detektiert werden soll, extrahiert werden können, wobei mindestens eines der Merkmale aus einem Tiefpass gefilterten Intensitätssignal extrahiert wird.
Auch kann die Extraktionseinheit 70 zusätzlich programmiert werden, um eines der oben aufgelisteten Merkmale 1 bis 10 aus dem Tonhöhensignal, das von dem Sprachsignal nach dem Tiefpassfiltern extrahiert wurde, zu extrahieren. In diesem Fall kann man für die so erhaltene Tiefpass gefilterte Tonhöhe die gleichen vier Reihen von oben aufgeführten Werten 1 bis 4 erhalten, die jeweils den 10 oben aufgeführten statistischen Merkmalen 1 bis 10 unterworfen werden können. Somit kann die Extraktionseinheit weiter programmiert werden, um jede Anzahl von statistischen Merkmalen bis zu 4×10 = 40 aus dem Tonhöhensignal zu extrahieren, das nach dem Tiefpassfiltern durch den Filter 74 abgeleitet wurde.
Die Merkmalsextraktionseinheit 70 kann auch programmiert werden, um eine reduzierte Anzahl von statistischen Merkmalen zu extrahieren, die z. B. mindestens einer der ersten sechs Merkmale, die in der obigen Tabelle III aufgeführt wurden, entsprechen, das sind:

1: der Medianwert der abgetasteten Tiefpass gefilterten Signalintensitätswerte,
2: der Mittelwert der Tiefpass gefilterten Signalintensitätswerte,
3: drittes Quartilwert der Reihe der abgetasteten Tiefpass gefilterten Signalintensitätswerte,
4: der erste Quartilwert der Reihe der abgetasteten Tiefpass gefilterten Signalintensitätswerte,
5: der Maximalwert der Reihe der abgetasteten Tiefpass gefilterten Signalintensitätswerte,
6: der Maximalwert der Reihe der abgetasteten Tiefpass gefilterten Signalintensitätswerte.

Schließlich kann jedes der unter i) –iii) aufgeführten Signale und, wenn der Fall auftritt, das Tiefpass gefilterte Tonhöhensignal individuell geglättet werden, z. B. durch ein 10 Hz Glätten (oder durch einen anderen Wert) oder nicht geglättet werden.
Die extrahierten Merkmale werden zeitweilig in einem Datenprotokollierer 82 gespeichert, auf das durch andere funktionale Einheiten zugegriffen werden kann.
Das emotionsempfindliche System 60 ist aufgebaut, um selektiv in einem von zwei möglichen Modi betrieben zu werden, wobei diese einem Offline-Emotionserkennungs-Trainingsmodus und einem Online- Emotionserkennungs-Trainingsmodus entsprechen.
Im Offline-Trainingsmodus wird das Training zum Erkennen von Emotionen außerhalb der Vorrichtung ausgeführt, z. B. mit Hilfe des Bewertungssystems, das mit Bezug auf 3 beschrieben worden ist. In diesem Fall liefert die Programmierungseinheit PU der 3 einen vollständigen Emotionserkennungsalgorithmus für den späteren Gebrauch. Der Algorithmus kann einem Typ entsprechen, der z. B. in Beispiel 1 ausgeführt wurde, oder einem davon verschiedenen Algorithmus. Die Emotionserkennung kann bezüglich ihrer Parameter und ihrer Programmierung (geschlossener Algorithmus) festgelegt sein oder kann bis zu einem bestimmten Grad anpassbar sein, um seine Parameter und seine Programmierung auf Basis der Rückantwort des Benutzers zu aktualisieren, um Fehler zu korrigieren oder die Emotionserkennung zu begleiten.
Bei dem Online-Trainingsmodus gibt es keinen anfänglich eingestellten Emotionserkennungsalgorithmus. Vielmehr ist ein Lernalgorithmus vorgesehen, der die verschiedenen Merkmale, die von der Merkmalsextraktionseinheit 70 extrahiert werden, und eine Benutzerrückkopplung oder Benutzerangaben der Emotionen, die detektiert werden sollen, analysiert. Von dieser Eingabe entwickelt der Lernalgorithmus einen bestimmten Online-Emotionserkennungsalgorithmus, der kontinuierlich modifiziert, aktualisiert und mit einer zunehmenden Zahl von Benutzereingaben und Rückkopplungen verbessert werden kann.
In 14 weist jeder dieser zwei Modi ihren Pfad von funktionalen Einheiten auf: OFF-L und ON-L jeweils für den Offline- und Online-Modus.
Für den Offline-Modus ist eine Offline-Emotionserkennungsalgorithmuseinheit 84 wie oben beschrieben vorgesehen. Letztgenannte führt die durch die Einheit 70 extrahierten Merkmale, die in dem Datenprotokollierer 82 vorliegen, gemäß ihrer Parametrisierung und Programmierung zu und bestimmt aus diesen extrahierten Merkmalen eine Emotion gemäß seiner eigenen vorbestimmten Einstellungen. In diesem Modus werden die Sprachsignale normalerweise nur von dem Mikrofon 62 empfangen.
Für den Online-Trainingsmodus wird zuerst eine Datenbank 86 erstellt, die extrahierte Merkmale enthält, aus der verschiedene Auswahlen durch eine Lernalgorithmuseinheit 88 erkannt werden können. Bis dahin ist die Datenbank 86 mit dem Datenprotokollierer 82 verbunden, um so alle extrahierten Merkmale zu akkumulieren und so eine entsprechende Sammlung von extrahierten Merkmalen aufzubauen. Eine Rückkopplung (Schleife FL1) von der Lernalgorithmuseinheit 86 zur Merkmalsextraktionseinheit 70 ermöglicht es der Letztgenannten, angewiesen zu werden, neue Merkmale zu ändern oder neue Merkmale aus den Möglichkeiten auszuwählen, um neue Notwendigkeiten, die sich aus dem am besten geeigneten Emotionserkennungsalgorithmus ableiten, zu erfüllen. Die Lernalgorithmuseinheit 88 kann ein Programm umfassen, das es einem Benutzer ermöglicht, Sprachnachrichten mit verschiedenen Emotionen einzugeben oder diese mit einer Datenbank, wie z. B. Datenbank 8, zu koppeln, um Daten aus der Sprachdatenbank zu empfangen.
Wenn die Lernalgorithmuseinheit 86 einmal den erforderlichen Online-Emotionserkennungsalgorithmus entwickelt hat, wird dieser in eine Online-Emotionserkennungsalgorithmuseinheit 90 geladen. Diese führt die gleiche Emotionserkennung aus wie die der Einheit 84, erzeugt diese aber intern und spezifisch zugeschnitten auf einen bestimmten Sprecher, wie z. B. den Benutzer.
Die Typen von Emotionen, die entweder von der Emotionsdetektionseinheit 84 oder von der Emotionsdetektionseinheit 90 detektiert werden, können den zuvor Diskutierten entsprechen: Ruhe, Traurigkeit, Glücklichkeit, Wut. Andere Emotionen können selbstverständlich auch vorgesehen werden.
Die Auswahl der Arbeitsweise in dem Offline- oder Online-Modus wird durch eine Auswahleinheit 92 festgelegt, die auswählt, von welchem Emotionsdetektionsalgorithmus 84 oder 90 die detektierten Emotionen entnommen werden sollen. Die Auswahl entspricht einem externen Benutzereingabesignal 94.
Üblicherweise sind die folgenden Varianten möglich:

– Das System 60 ist nur mit einem Offline-Emotionserkennungsalgorithmus 84 versehen. Dieser kann dann vollständig festgelegt oder bis zu einem bestimmten Grad durch eine Rückkopplungsantwort einstellbar sein, oder
– das System ist nur mit einem Online-Emotionsalgorithmussystem versehen, das aus dem Lernsystem und dem Online-Emotionserkennungsalgorithmus, der durch dieses erzeugt wird (Einheiten 86 bis 90) zusammengesetzt ist.

Die Programmierungseinheit PU der 3 dient dazu, die erforderliche Information und den Code für die verschiedenen funktionalen Einheiten bereitzustellen. Dies wird durch eine Programmierschnittstelle PI erreicht. Insbesondere dienen die Programmiereinheit PU und ihre Schnittstelle PI dazu, die Merkmalsextraktionseinheit 70 zu programmieren, die Offline-Emotionserkennungsalgorithmen (Einheit 84) zu laden und/oder den Lernalgorithmus (Einheit 88) sowie die Merkmale in die Datenbank 86 zu laden, um zusätzliche Sample oder komplementäre Daten bereitzustellen.
Die Ausgabe aus den Offline- und Online-Emotionserkennungsalgorithmuseinheiten 84 und 90 wird einer Eingangseinheit 94 für eine detektierte Emotion zugeführt, wo die erkannte Emotion bestätigt wird. Von dieser Einheit 94 wird die erkannte Emotion an eine Emotionsantworteinheit 96 zugeführt, um alle die beabsichtigten emotionalen Antworten zu steuern. Zum Beispiel kann die emotionale Antworteinheit 96 im Falle eines Roboterhaustiers den Betrieb von verschiedenen elektromechanischen Aktuatoren, Lichtern und Audioausgangsvorrichtungen steuern, um eine geeignete Antwort zu simulieren.
Eine Antwort umfasst das Abgeben eines Feedbacks an einen menschlichen Benutzer 96 oder eine andere steuernde Person oder Vorrichtung, um die detektierte Information anzugeben. Dies wird durch einen Indikator 100 für eine detektierte Emotion erreicht, die ein visuelles, hörbares, elektrisches oder mechanisches Signal, das die detektierte Emotion angibt, abgibt. Dies macht es möglich, zu überprüfen, ob die Identifikation richtig ist oder nicht, und, wenn erforderlich, korrektive Maßnahmen vorzunehmen.
Insbesondere ermöglicht es dem Benutzer 98, eine Feedback-Antwort in eine Feedback-Antworteinheit 102 auszudrücken, die eine geeignete Feedback-Nachricht an die verschiedenen betroffenen Einheiten erzeugt: Offline-Emotionserkennungsalgorithmuseinheit 84 (wenn diese eine entsprechende Flexibilität zulässt), Lernalgorithmuseinheit 88 und die Online-Emotionserkennungsalgorithmuseinheit 90.
Aus der vorangehenden Beschreibung wird deutlich, dass die Erfindung mit vielen verschiedenen Kombinationen von Merkmalen, die aus dem Signal extrahiert werden, implementiert werden kann, wobei mindestens eines der Merkmale aus dem Signal nach dem Tiefpassfiltern extrahiert wird.
Die Auswahl des Algorithmus für die Emotionserkennung auf Basis dieser Merkmale kann auf empirischer Basis vorgenommen werden. Die Algorithmen, die in dieser Beschreibung aufgeführt werden, stellen lediglich einige von vielen Algorithmen dar, die für diesen Zweck geeignet sind. Es kann auch vorgesehen sein, die Erfindung mit anderen Algorithmen, sowohl für das Lernen als auch für die Emotionserkennung zu implementieren. Der Bereich der Erfindung wird lediglich durch die beigefügten Ansprüche beschränkt.

Claims

Verfahren zum Detektieren einer in einem Sprachsignal übermittelten Emotion mit den folgenden Schritten: – Durchführen einer Tiefpassfilterung des Sprachsignals, – Extrahieren (70) einer Gruppe, die mehr als ein von dem Tiefpass gefilterten Signal abgeleitetes Merkmal umfasst; und – Verarbeiten (84, 90) der Gruppe der extrahierten Merkmale, um daraus eine Emotion zu detektieren, wobei der Schritt des Extrahierens der Merkmale die Schritte des wahlweisen Extrahierens von mehr als einem von 160 Merkmalen umfasst, die durch die folgenden Kombinationen von Parametern I, II und III erhalten werden: – Parameter I: i) die Intensität des nach dem Schritt des Tiefpassfilterns abgeleiteten Signals (74), ii) die Intensität des Signals ohne die Tiefpassfilterung, iii) die Tonhöhe des Signals ohne die Tiefpassfilterung, und iv) die Tonhöhe des nach dem Schritt des Tiefpassfilterns abgeleiteten Signals (74); – Parameter II, die aus einer Abfolge von Werten eines Parameters I über eine Dauer des Sprachsignals erhalten werden: 1) eine Reihe von lokalen Minima, dessen Elemente Werte in der Abfolge sind, die einem Minimum entsprechen; 2) eine Reihe von lokalen Maxima, dessen Elemente Werte in der Abfolge sind, die einem Maximum entsprechen; 3) eine Reihe von Dauern (Zeitintervallen), dessen Elemente Zeitwerte sind, die (benachbarte) lokale Extremwerte trennen, und 4) eine Reihe, dessen Elemente alle aufeinander folgend abgetasteten Werte der Abfolge sind; und – Parameter III, die aus einer Reihe der Parameter II errechnet sind: 1) der Mittelwert, 2) das Maximum (d. h. der insgesamt höchste Wert), 3) das Minimum (d. h. der insgesamt niedrigste Wert), 4) die Differenz zwischen dem Maximum und dem Minimum, 5) die Varianz, 6) der Median, 7) das erste Quartil, 8) das dritte Quartil, 9) der Interquatilbereich, der als Differenz zwischen dem dritten und dem ersten Quartil definiert ist, 10) der Mittelwert des absoluten Wertes der lokalen Ableitung; wobei mindestens eines der Merkmale, das von i) der Intensität des Signals nach dem Schritt des Tiefpassfilterns (74) oder von iv) der Tonhöhe des Signals nach dem Schritt des Tiefpassfilterns (74) des Parameters I stammt.
Verfahren nach Anspruch 1, wobei der Schritt des Tiefpassfilterns das Filtern (74) der Intensität des Sprachsignals mit einer Grenzfrequenz (Fco) im Bereich von 150–400 Hz umfasst.
Verfahren nach Anspruch 2, wobei die Grenzfrequenz (Fco) im Bereich von 250–300 Hz liegt.
Verfahren nach Anspruch 3, wobei die Grenzfrequenz (Fco) 250 Hz entspricht.
Verfahren nach einem der Ansprüche 1 bis 4, wobei die Parameter I umfassen: i) die Intensität des Signals, das nach dem Schritt des Tiefpassfilterns abgeleitet wird (74), ii) die Intensität des Signals ohne die Tiefpassfilterung, und iii) die Tonhöhe des Signals ohne die Tiefpassfilterung, wobei die Kombination insgesamt 120 verschiedene mögliche Merkmale ergibt, wobei mindestens eines der Merkmale von i) der Intensität des Signals nach dem Schritt des Tiefpassfilterns (74) der Parameter I abgeleitet ist.
Verfahren nach einem der Ansprüche 1 bis 5, wobei die Parameter III die folgenden fünf Parameter umfassen: 2) das Maximum (d. h. der insgesamt höchste Wert), 3) das Minimum (d. h. der insgesamt niedrigste Wert), 6) der Median, 7) das erste Quartil, 8) das dritte Quartil, wobei die Kombination mit einem der Ansprüche 1 bis 4 insgesamt 80 verschiedene mögliche Merkmale und mit Anspruch 5 insgesamt 50 verschiedene mögliche Merkmale ergibt.
Verfahren nach Anspruch 6, wobei der Schritt des Extrahierens das Extrahieren von mindesten einem der folgenden möglichen Merkmale umfasst: – das Maximum (d. h. der insgesamt höchste Wert), – das Minimum (d. h. der insgesamt niedrigste Wert), – der Median, – das erste Quartil, – das dritte Quartil, berechnet aus: der Reihe von Werten des Intensitätssignals, das nach dem Tiefpassfiltern des Sprachsignals abgeleitet ist, der Reihe von Minimumwerten des Intensitätssignals, das ohne das Tiefpassfiltern des Sprachsignals abgeleitet wird, der Reihe von Tonhöhenwerten des Signals, das nach dem Tiefpassfiltern des Sprachsignals abgeleitet wird, und der Reihe von Tonhöhenwerten des Signals, das ohne das Tiefpassfiltern des Sprachsignals abgeleitet wird.
Verfahren nach einem der Ansprüche 1 bis 7, wobei der Schritt des Extrahierens das Extrahieren von Merkmalen umfasst, die sowohl von dem Sprachsignal nach dem Schritt des Tiefpassfilterns (74) als auch von dem Sprachsignal ohne das Tiefpassfiltern abgeleitet werden.
Verfahren nach einem der Ansprüche 1 bis 7, wobei der Schritt des Extrahierens das Extrahieren der Merkmale nur von dem Sprachsignal nach dem Schritt des Tiefpassfilterns (74) umfasst.
Verfahren nach einem der Ansprüche 1 bis 9, wobei mindestens ein Element der Gruppe von Merkmalen umfasst: 1: den Medianwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte; 2: der Mittelwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte; 3: der dritte Quartilwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte, 4: der erste Quartilwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte, 5: das Maximum der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte, und 6: der Maximalwert der Reihe der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte.
Verfahren nach einem der Ansprüche 1 bis 10, das weiterhin einen Schritt des Glättens eines Signals umfasst, das von dem Sprachsignal vor dem Schritt des Extrahierens extrahiert wird.
Verfahren nach einem der Ansprüche 1 bis 11, das weiterhin den Schritt des Erzeugens eines Algorithmus zum Erkennen einer Emotion mit Hilfe eines Lehralgorithmus umfasst, wobei der Lehralgorithmus das mindestens eine Merkmal, das von dem Tiefpass gefilterten Sprachsignal extrahiert ist, anwendet.
Verfahren nach Anspruch 12, das weiterhin den Schritt des Programmierens (PU) einer Emotionserkennungsvorrichtung (60) mit einem Offline-Algorithmus (84) zum Erkennen einer Emotion und/oder ein Online-Algorithmus zum Erkennen einer Emotion (90) umfasst, wobei der Algorithmus mindestens ein Merkmal, das von einem Tiefpass gefilterten Sprachsignal extrahiert ist, anwendet.
Vorrichtung zum Erkennen einer in einem Sprachsignal übermittelten Emotion, umfassend: – eine Tiefpassfiltereinrichtung (74) zum Tiefpassfiltern des Sprachsignals; – eine Extraktionseinrichtung (70) zum Extrahieren einer Gruppe, die mehr als ein von dem Tiefpass gefilterten Signal abgeleitetes Merkmal umfasst, und – eine Verarbeitungseinrichtung (84, 90) zum Verarbeiten der Gruppe der extrahierten Merkmale, um daraus eine Emotion zu erkennen, wobei die Merkmalsextraktionseinrichtung (70) eine Einrichtung zum wahlweisen Extrahieren von mehr als einem von 160 Merkmalen umfasst, die aus der folgenden Kombination von Parametern I, II und III erhalten werden: – Parameter I: i) die Intensität des nach dem Schritt des Tiefpassfilterns (74) abgeleiteten Signals, ii) die Intensität des Signals ohne das Tiefpassfiltern, iii) die Tonhöhe des Signals ohne das Tiefpassfiltern, und iv) die Tonhöhe des nach dem Schritt des Tiefpassfilterns (74) abgeleiteten Signals; – Parameter II aus einer Abfolge von Werten eines Parameters I, der während einer Dauer des Sprachsignals erhalten wird: 1) eine Reihe von lokalen Minima, dessen Elemente Werte in einer Abfolge sind, die einem Minimum entsprechen, 2) eine Reihe von lokalen Maxima, dessen Elemente Werte in der Abfolge, die einem Maximum entsprechen, 3) eine Reihe von Dauern (Zeitintervallen), dessen Elemente Zeitwerte sind, die (benachbarte) lokale Extremwerte trennen, und 4) eine Reihe, dessen Elemente alle aufeinander folgende abgetastete Werte der Abfolge sind; und – Parameter III, die aus einer Reihe der Parameter II errechnet sind: 1) der Mittelwert, 2) das Maximum (d. h. der insgesamt höchste Wert), 3) das Minimum (d. h. der insgesamt niedrigste Wert), 4) die Differenz zwischen dem Maximum und dem Minimum, 5) die Varianz, 6) der Median, 7) das erste Quartil, 8) das dritte Quartil, 9) der Interquartilbereich, der als die Differenz zwischen dem dritten und dem ersten Quartil definiert ist, 10) der Mittelwert des absoluten Wertes der lokalen Ableitung; wobei mindestens eines der Merkmale von i) der Intensität des Signals nach dem Schritt des Tiefpassfilterns (74) oder von iv) der Tonhöhe des Signals nach dem Schritt des Tiefpassfilterns (74) des Parameters I stammt.
Vorrichtung nach Anspruch 14, wobei die Tiefpassfiltereinrichtung (74) eine Grenzfrequenz (Fco) in dem Bereich von 150 – 400 Hz aufweist.
Vorrichtung nach Anspruch 15, wobei die Grenzfrequenz (Fco) im Bereich von 250–300 Hz liegt.
Vorrichtung nach Anspruch 16, wobei die Grenzfrequenz (Fco) 250 Hz entspricht.
Vorrichtung nach einem der Ansprüche 14 bis 17, wobei die Extraktionseinrichtung (70) so eingestellt ist, um Merkmale, die von sowohl dem Sprachsignal nach dem Tiefpassfiltereinrichtung (74) als auch von dem Sprachsignal ohne Tiefpassfilterung abgeleitet sind, zu extrahieren.
Vorrichtung nach einem der Ansprüche 14 bis 17, wobei die Extraktionseinrichtung (70) eingestellt ist, um Merkmale nur von dem Sprachsignal nach der Tiefpassfiltereinrichtung (74) zu extrahieren.
Vorrichtung nach einem der Ansprüche 14 bis 19, wobei das mindestens eine Element der Gruppe von Merkmalen umfasst: 1: der Mittelwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte, 2: der Mittelwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte, 3: der dritte Quartilwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte, 4: der erste Quartilwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte, 5: das Maximum der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte, und 6: der Maximalwert der nach dem Tiefpassfiltern des Sprachsignals abgeleiteten Signalintensitätswerte,
Vorrichtung nach einem der Ansprüche 14 bis 20, die weiterhin eine Einrichtung zum Glätten eines Signals umfasst, das von dem Sprachsignal vor der Extraktionseinrichtung (70) extrahiert wird.
Vorrichtung nach einem der Ansprüche 14 bis 21, wobei die Verarbeitungseinrichtung eine Offline-Algorithmuseinheit (84) zum Erkennen einer Emotion, die einen vorprogrammierten Algorithmus enthält, umfasst.
Vorrichtung nach einem der Ansprüche 14 bis 22, wobei die Verarbeitungseinrichtung eine Online-Algorithmuseinheit (90) zum Erkennen einer Emotion umfasst, wobei die Vorrichtung weiterhin eine Lehreinheit (88) zum Erzeugen eines Emotionserkennungsalgorithmus abhängig von den durch die Extraktionseinrichtung (70) erzeugten Daten umfasst.
Sprachsignalverarbeitungseinrichtung, insbesondere für die Vorrichtung gemäß einem der Ansprüche 14 bis 23, dadurch gekennzeichnet, dass sie eine Tiefpassfiltereinrichtung (74) zum Bereitstellen einer Tiefpass gefilterten Form eines Sprachsignals an die Extraktionseinrichtung (70) umfasst.