-
Die
vorliegende Erfindung betrifft das Gebiet der Emotionserkennung
und insbesondere ein Verfahren und eine Vorrichtung zum Detektieren
einer Emotion aus Sprachsignalen. Es gibt nun eine wachsende Zahl von
Anwendungen, die technische Einrichtungen erfordern, eine in einer
menschlichen Sprache – oder
möglicherweise
synthetisierten oder Tiersprache – übermittelten Emotion zu detektieren,
um z. B. eine Mensch-Maschinen-Schnittstelle mit einem natürlicheren
und intuitiveren Weg der Kommunikation zur Verfügung zu stellen. Zum Beispiel
werden heute Roboterhaustiere oder Humanoide mit einem Verhalten
entwickelt, das bemerkenswert dem von lebenden Wesen gleicht. In
diesem Kontext ist es natürlich,
dass von dem Roboter erwartet wird, Äußerungen mit einem Gehalt von
Grundemotionen zu detektieren, z. B. Ruhe, Glücklichkeit, Traurigkeit, Wut
usw. Andere Anwendungen können
in der Ausbildung, im Training, der Sprachtherapie, in der menschlichen
Gerätesteuerung,
Fahrzeugen, Werkzeugen usw. liegen.
-
Die
meisten Anstrengungen (wenngleich nicht alle), die bis heute in
diesem Gebiet der Emotionserkennung unternommen worden sind, konzentrieren
sich auf das Detektieren von Emotionen in einem von Personen gesprochenen
Text, wobei der Text im Allgemeinen eher Absätze sind als kurze Äußerungen.
Die Wiedergabe wird in gut kontrollierten Umgebungen, wie z. B.
akustischen Räumen
durch geführt.
-
Die
letzten Jahre waren gekennzeichnet durch die zunehmende Entwicklung
von persönlichen
Robotern, die entweder als neue für die Ausbildung bestimmte
Technologien (s. Druin A., Hendler, J. (2000) „Robots for Kids: Exploring
new technologies for learning",
Morgan Kauffman Publishers-) oder für reine Unterhaltung (s. Fujita
M., Kitano H. (1998) „Development
of an autonomous quadruped robot for robot entertainment", Autonomus Robots,
5, and Kusahara M. (2000) „The
art of creating subjective reality: an analysis of Japanese digital
pets", in Boudreau
E., ed. in Artificial Life 7, Workshop Proceedings, Seiten 141–144) verwendet
werden.
-
Üblicherweise
sehen diese Roboter wie vertraute Haustiere, wie Hunde oder Katzen
aus (z. B. der Sony AIBO Roboter) oder nehmen manchmal die Form
von jungen Kindern wie z. B. die Humanoide SDR3-X (Sony) an.
-
Die
Interaktion mit diesen Maschinen soll radikal von der Art und Weise
verschieden sein, in der wir mit herkömmlichen Computern interagieren.
Soweit haben Menschen gelernt, sehr unnatürliche Handlungsweisen und
Medien, wie z. B. Tastaturen oder Dialogfenster, anzuwenden, und
mussten einiges erhebliches Wissen über die Weise haben, wie Computer
arbeiten, um diese benutzen zu können.
-
Unter
den Fähigkeiten,
die diese persönlichen
Roboter benötigen,
ist eine der grundlegendsten die Fähigkeit, menschliche Emotionen
zu erfassen (s. Picard R. (1997) „Affective Computing", MIT Press) und
insbesondere sollten sie sowohl menschliche Emotionen erkennen als
auch ihre eigenen Emotionen ausdrücken können. Tatsächlich sind Emotionen für das menschliche
Verständnis
nicht nur entscheidend, sondern sie sind auch wichtig für die soziale
Regulierung (s. Halliday M. (1975) „Learning how to mean: exploration
in the development of language",
Elsevier, NY.) und insbesondere für die Steuerung von Dialogflüssen (sprachlich
und gestikulär).
-
Abgesehen
von der Sprache drücken
wir unsere Emotionen gegenüber
Anderen in zwei Hauptarten aus: Modulation des Gesichtsausdrucks
(s. Ekman, P. (1982) „Emotions
in the human face",
Cambridge University Press, Cambridge.) und die Modulation der Intonation
der Stimme (s. Banse, R. und Sherer, K. R., (1996) „Acoustic
profiles in vocal emotion expression", Journal of Personality and Social
Psychology, 70(3): 614–636).
-
Wenngleich
heute die Forschung der automatischen Erkennung von Emotionen in
Gesichtsausdrücken
sehr ergiebig ist (s. A. Samal, P. Iyengar (1992) „Automatic
recognition and analysis of human faces and facial expression: A
survey. Pattern Recognition, 25(1): 65–77), wird die Forschung an
Sprachmodalitäten,
sowohl für
die automatische Wiedergabe als auch die Erkennung durch Maschinen
aktiv erst seit wenigen Jahren betrieben (s. Bosh, L. T. (2000) „Emotions:
what is possible in the ASR framework?" in Proceedings of the ISCA Workshop
on Speech and Emotion).
-
Ein
Ausgangspunkt bei der Forschung ist eine Ermittlung von akustischen
Korrelationen zwischen einer Emotion und ihrer Wirkung auf die akustischen
Eigenschaften des entsprechenden Sprachsignals. Eine Anzahl von
Forschern hat bereits bezüglich
dieser Frage geforscht (s. Fairbanks 1940, Burkhard and Sendlmeier
200, Banse and Sherer 1996).
-
Ihre
Ergebnisse bestätigen
die Sprachkorrelationen, die aus physiologischen Gegebenheiten erwachsen
und die einer breiten Klasse von Grundemotionen entsprechen, stimmen
jedoch nicht überein
und sind unklar, wenn man auf die Unterschiede zwischen den akustischen
Korrelationen von z. B. Furcht und Überraschung, von Langeweile
und Traurigkeit betrachtet. Tatsächlich
sind bestimmte emotionale Zustände
oft mit bestimmten physiologischen Zuständen korreliert (s. Picard
1997, wie oben angeführt),
die umgekehrt ziemlich mechanische und somit vorhersagbare Effekte
auf die Sprache, insbesondere auf die Tonhöhe (Grundfrequenz F0), das
Timing und die Sprachqualität
haben. Wenn man sich z. B. in einem Zustand der Wut, Furcht oder
Freude befindet, ist dass sympathetische Nervensystem angeregt,
die Herzfrequenz und der Blutdruck steigen an, der Mund wird trocken,
und es gibt gelegentlich Muskelzittern. Die Sprache ist dann laut,
schnell und mit hoher Energie bei hohen Frequenzen beaufschlagt.
Wenn man gelangweilt oder traurig ist, ist das parasympathetische
Nervensystem angeregt, die Herzfrequenz und der Blutdruck sinken
und der Speichelfluss steigt an, wodurch eine Sprache hervorgerufen
wird, die langsam, mit einer geringen Tonhöhe versehen und mit einer geringen
Energie bei hohen Frequenzen versehen ist (Breazal, C. (2000) Sociable
Machines: „Expressive
social exchange between humans and robots", PhD Thesis, MIT AI Lab.).
-
Weiterhin
belegt die Tatsache, dass diese physiologischen Effekte ziemlich
universelle Mittel sind, dass es gemeinsame Tendenzen bei den akustischen
Korrelationen von Grundemotionen über verschiedene Kulturen hinweg
gibt. Dies wurde in Studien genau untersucht (s. Abelin A, Allwood
J., (2000) „Cross-linguistic interpretation
of emotional prosody",
in Proceedings of the ISCA Workshop on Speech and Emotion) or Tickle A.
(2000), „English
and Japanese speaker's
emotion vocalisations and recognition: a comparison highlighting vowel
quality", ISCA Workshop
on Speech and Emotion, Belfast 2000). In diesen Studien wurden Experimente durchgeführt, bei denen
z. B. Amerikaner versuchen mussten, die Emotion von entweder einem
weiteren Amerikaner oder einem Japaner zu erkennen, indem sie lediglich
die akustische Information verwenden (die Laute waren ohne Bedeutung,
so dass es keine semantische Information gab).
-
Auf ähnliche
Weise wurden Japaner gebeten, zu versuchen zu entscheiden, welche
Emotionen andere Japaner oder Amerikaner versuchen auszudrücken. Aus
diesen Studien erhielt man zwei Ergebnisse: 1) Es gibt nur einen
geringen Unterschied zwischen den Ergebnissen beim Versuchen Emotionen
festzustellen, die durch jemanden ausgedrückt werden, der die selbe Sprache
spricht, und jemandem, der die andere Sprache spricht, und dies
gilt sowohl für
Japaner als für
Amerikaner; 2) Menschen waren weit entfernt davon, die Emotionen
absolut in perfekter Weise zu erkennen: Die beste Erkennungsleistung
lag bei 60 Prozent: Dieses Ergebnis könnte teilweise durch die Tatsache
erklärbar
sein, dass Menschen aufgefordert wurden, unsinnige Äußerungen
auszusprechen, die ziemlich unnatürlich sind, wird jedoch bestätigt durch
Untersuchungen, bei denen Leute aufgefordert wurden, semantisch
neutrale, jedoch Sätze
mit Bedeutung auszudrücken
(s. Burkhardt F., Sendlmeier W., (2000) „Verification of acoustical
correlates of emotional speech using formatsynthesis", in Proceedings
of the ISCA Workshop in Speech and Emotion.).
-
Das
erste Ergebnis gibt an, dass das Ziel, eine Maschine sowohl bedeutungslose
Sprache oder in einer Weise, die durch Leute von verschiedenen Kulturen
erkennbar ist, mit der Genauigkeit eines menschlichen Sprechers
ausdrücken
zu lassen, theoretisch erreichbar ist. Das zweite Ergebnis zeigt,
dass wir kein perfektes Ergebnis erwarten sollten und die Maschinenleistung
mit der menschlichen Fähigkeit
vergleichen sollten. Die Tatsache, dass Menschen nicht so gut sind,
wird hauptsächlich
durch die Tatsache erklärt,
dass mehrere emotionale Zustände
sehr ähnliche
physiologische Korrelationen aufweisen und dadurch akustisch korrelieren.
Bei tatsächlichen
Situationen lösen
wir die Zweideutigkeiten durch Verwenden des Kontext und/oder anderen
Modalitäten.
Tatsächlich
haben einige Experimente gezeigt, dass die multimodale Natur des
Ausdruckes eines Affekts zu einem MacGurk-Effekt für Emotionen
führen
kann (s. Massaro D., (2000) „Multimodal
emotion perception: analogous to speech processes", ISCA Workshop on
Speech and Emotion, Belfast 2000.) und dass verschiedene Kontexte
dazu führen
können,
dass Menschen dieselbe Betonung als verschiedene Emotionen für jeden
Kontext interpretieren können
(s. Cauldwell R. (2000) „Where
did the anger go? The role of context in interpreting emotions in
speech", ISCA Workshop
on Speech and Emotion.). Diese Ergebnisse geben an, dass es nicht
notwendig ist, eine Maschine Äußerungen
erzeugen zu lassen, die feine Unterscheidungen vornehmen; nur die
grundlegendsten Emotionszustände
müssen
untersucht werden.
-
Eine
Anzahl von Experimenten mit Hilfe von computerbasierten Techniken
der Klangmanipulation wurden durchgeführt, um herauszufinden, welche
besonderen Aspekte der Sprache Emotionen mit der größten Erkennbarkeit
darstellen (s. Murray E. and Arnott J. L. (1993) „Towards
a simulation of emotion in synthetic speech", Speech Communication, 16(4) S. 1097–1108; Banse
R. and Sherer K. R. (1996) „Acoustic
profiles in vocal emotion expression", Journal of Personality and Social
Psychology, 70(3): 614–636;
Burckhardt and Sendlmeier (2000) „Verification of acoustical
correlates of emotional speech using Formant-synthesis", Proceedings of
the ISCA Workshop on Speech and Emotion; and Williams U. and Stevens
Kn N. (1972) „Emotions in
speech: some acoustical correlates", JASA 52, 1228–1250. Alle diese Studien stimmen
grundlegend mit der Schlussfolgerung überein, dass die bedeutsamsten
Aspekte diejenigen der Prosodie: Tonhöhe (bezüglich f0) und Kontur, die Intensitätskontur
und das Timing der Äußerungen
betreffen. Einige jüngere
Studien haben gezeigt, dass die Sprachqualität (s. Gobl C. und Chasaide
A. N. (2000) „Testing
affective correlates of voice quality through analysis and resynthesis", Proceeding of the
ISCA Workshop on Emotion and Speech) und bestimmte coartikulatorischen
Phänomene
(s. Kienast M. and Sendlmeier W. (2000) „Acoustical analysis of spectral
and temporal changes in emotional speech", Proceedings of the ISCA Workshop on
Emotion and Speech) auch erheblich mit bestimmten Emotionen korreliert
sind.
-
Mit
Bezug zur Detektion von menschlichen Emotionen ist, wenngleich Menschen
im Allgemeinen dies mit Hilfe des Kontext und der Modalitäten vornehmen,
die von einem sprachlichen Inhalt zum Gesichtsausdruck und Intonation
reichen, ein solcher vollständiger
Ansatz leider nicht für
eine Maschine in einer unkontrollierten Umgebung realistisch: z.
B. eine robuste Spracherkennung in Situationen ist außer Reichweite
für heutige
Systeme und eine Erkennung von Gesichtsausdrücken benötigt sowohl Rechenkapazitäten und
Videogeräte,
die Roboterwesen in den häufigsten
Fällen
nicht besitzen.
-
Aus
diesem Grund untersuchte der Anmelder, wie eine Emotionsdetektion
vorgenommen werden könnte,
indem lediglich die prosodische Information der Sprache (Stimme)
verwendet wird. Weiterhin ist die Sprache, auf die es ankommt, diejenige,
die in alltäglichen
Unterhaltungen vorkommt, was kurze informale Äußerungen bedeutet, im Gegensatz
zur Sprache, die erzeugt wird, wenn jemand aufgefordert wird, einen
vorbereiteten Text emotional zu lesen, z. B. einen Absatz einer
Zeitung. Vier breite Gruppen von emotionellem Inhalt wurden untersucht:
Freude/Vergnügen,
Sorge/Traurigkeit/Gram, Wut und Ruhe/Neutralität.
-
Im
Gegensatz zur automatischen Erkennung von Emotionen mit Gesichtsausdrücken (s.
Samal A. and Iyengar P. „Automatic
recognition and analysis of human faces and facial expression: a
survey" Pattern
Recognition, 25(1): 65–77),
ist die Forschung, die die Sprachmodalität verwendet, noch sehr jung
(s. Bosh L. T. (2000) „Emotions:
what is possible in the ASR framework?" (Proceeding of the ISCA Workshop on
Speech and Emotion, Belfast 2000). Die ersten Studien, die durchgeführt wurden
(s. Murray and Arnott (1993) „Towards
a simulation of emotion in synthetic speech: a review on the literature
of human vocal emotion, JASA 93(2), S. 1097–1108, 1993; Williams U. Stevens
K. N., (1972), Emotions and speech: some acoustical correlates,
JASA 52, 1238–1250)
waren nicht so anspruchsvoll, um eine effiziente Maschinenerkennungsvorrichtung
hervorzubringen, sondern versuchten lediglich, allgemeine qualitative
akustische Korrelationen von Emotionen in Sprache (z. B.: Glücklichkeit
erhöht
tendenziell die durchschnittliche Tonhöhe von Äußerungen als bei ruhigen Sätzen). In
jüngster
Zeit hat die zunehmende Wahrnehmung der Tatsache, dass die emotionale
Datenverarbeitung (affective computing) ein wichtiges industrielles
Potential aufweist (Picard, 1997), die Forschung in Richtung der
Frage der Leistungsfähigkeit
bei der automatischen Erkennung von Emotionen in Sprache (Bosh, 2000)
beschleunigt.
-
Jedoch
wurde keine groß angelegte
Untersuchung mit Hilfe der modernen Werkzeuge, die in dem Bereich
des Data-Mining und des Maschinenlernens entwickelt wurden, ausgeführt. Tatsächlich werden
in den meisten Fällen
entweder ein oder zwei Lernschemata getestet (z. B. Polzin T., Waibel
A. (2000) „Emotion-sensitive
Humancomputer Interface",
in Proceedings of the ISCA Workshop on Speech and Emotion; Slaney
M., McRoberts G. (1998) „Baby
Ears: a recognition system for affective vocalization; in Proceedings
of ICASSP 1998) oder es wurden nur sehr wenige und einfache Merkmale
verwendet (Polzin and Waibel 2000, Slaney and McRoberts 1998, Breazal
2000, Whiteside 1997) oder es wurden nur kleine Datenbanken verwendet – weniger
als 100 Beispiele für
jeden Sprecher (s. C. Breazeal; L. Aryananda (2000) „Recognition
of affective communicative intent in robot-directed speech", in Proceedings
of the Humanoids Conference, 2000; McGilloway S. et al. (2000) „Approaching
automatic recognition of emotion from voice: a rough benchmark", in Proceedings of
the ISCA Workshop on Speech and Emotion; Slaney M., McRoberts G.
(1998) „Baby
ears: a recognition system for affective vocalisation", in Proceedings
of ICASSP 1998), wodurch nahe gelegt wird, dass die Leistungsfähigkeit
von einigen statistischen Lernschemata übersehen worden sein können.
-
Nur
McGilloway and al. 2000, der oben zitiert wurde, hat versucht, einige
systematische Daten-Mining-Ansätze
durchzuführen,
die mehr als die traditionelle/herkömmliche Menge von Merkmalen
verwendet, die von dem Rest der Literatur verwendet wurden: Mittelwert,
Maximum, Minimum, Maximum-Minimum, Varianz der Tonhöhe und der
Intensitätverteilungen
und der Längen
der phonemischen oder syllabischen Segmente oder der Abschnitte,
in denen die Tonhöhe
ansteigt.
-
Jedoch
mangelt es dieser Arbeit an einer ausreichenden experimentellen
Basis: 1) Nur drei Arten von Lernschemata wurden verwendet – Support-Vektor-Maschinen,
Gauß'sche Mischungen und
lineare Diskriminanten – die
weit entfernt davon sind, die besten zu sein, beim Verarbeiten von
Daten, bei denen es wahrscheinlich viele irrelevante Merkmale gibt,
und die es insbesondere nicht ermöglichen, automatisch eine kleinere
Menge von Merkmalen mit einer optimalen Effizienz abzuleiten; und
2) die Merkmalsmenge wurde untersucht, indem ein Lernschema ausgewählt wurde,
und iterativ weniger brauchbare Merkmale für die Klassifikation entfernt
wurden: einerseits ist dies ziemlich ad hoc, da es mit einem sehr
bestimmten Lernschema und Auswahlverfahren verbunden ist, und andererseits
ermöglicht
es nicht, die Geeignetheit von Merkmalsgruppen zu detektieren. Ihre
Arbeit basiert auf Sprache, die erzeugt worden ist, indem Menschen
aufgefordert wurden, Zeitungstexte in emotioneller Weise zu lesen,
was nicht den durch die vorliegende Erfindung adressierten Gegebenheiten
entspricht.
-
Bis
heute sind die einzigen zwei Forschungsgruppen, die offensichtlich
versucht haben, automatische Erkennungsgeräte für die tägliche Sprache herzustellen
Breazal 2000 and Slaney et al. 1998, die oben aufgeführt worden
sind. Jedoch konnten diese Gruppen nur sehr kleine Datenbanken,
sehr wenige Merkmale und zwei verschiedene Lernalgorithmen verwenden.
Schließlich
liegt eine allgemeine Schlussfolgerung dieser bestehenden Forschungslinie
darin, dass Erkennungsraten von über
60 Prozent sogar mit nur den vier Grundemotionen unmöglich erscheinen,
wenn mehrere Sprecher berücksichtigt
werden. Die erhebliche Sprechervariabilität wurde z. B. beschrieben (s.
Slaney et al. 1998, wie oben aufgeführt ist).
-
Ein
Beispiel eines Stands der Technik, der dem Oberbegriff des unabhängigen Anspruchs
entspricht, kann in dem Dokument US-A-4,142,067 gefunden werden.
-
Es
ist daher eine Aufgabe der vorliegenden Erfindung, eine sprachbasiertes
Emotionserkennungsverfahren und Vorrichtung vorzuschlagen, das hinsichtlich
seiner Rechenlast erträglich
ist, so dass es in praktischer Weise in kleinen Systeme, wie z.
B. in Haustierroboter, Humanoide und dgl. eingesetzt werden kann, während sie
eine gute Trefferquote bezüglich
eines korrekten Erkennens einer Emotion aufweisen.
-
Eine
weitere Aufgabe der Erfindung besteht darin, es zu ermöglichen,
Emotionen, die in kurzen Äußerungen
enthalten sind, zu identifizieren.
-
Eine
weitere Aufgabe der vorliegenden Erfindung besteht darin, einen
Betrieb in Situationen des täglichen
Lebens zu ermöglichen,
wo Äußerungen
in rauschbehafteten und/oder akustisch schlechten Umgebungen gemacht
werden.
-
Insbesondere
schlägt
die Erfindung gemäß einem
ersten Aspekt ein Verfahren zum Detektieren einer in einem Sprachsignal übermittelten
Emotion vor, mit folgenden Schritten:
- – Extrahieren
einer Gruppe, die mehr als ein von dem Signal abgeleitetes Merkmal
umfasst, und
- – Verarbeiten
der Gruppe der (des) extrahierten Merkmale (Merkmals), um daraus
eine Emotion zu detektieren, wobei ein Schritt des Tiefpassfilterns
des Sprachsignals vor dem Extrahieren des mindestens einen Merkmals
dieser Gruppe vorgesehen ist.
-
Der
Schritt des Tiefpassfilterns umfasst vorzugsweise das Filtern der
Intensität
des Sprachsignals mit einer Grenzfrequenz (Fco), im Wesentlichen
im Bereich von 150 bis 400 Hz, insbesondere im Wesentlichen im Bereich
zwischen 250 bis 300 Hz, wobei eine bevorzugte Grenzfrequenz (Fco)
im Wesentlichen 250 Hz entspricht. Der Schritt des Extrahierens
der Merkmale umfasst die Schritte des wahlweisen Extrahierens von
mehr als einem aus 160 Merkmalen, die durch die folgenden Kombinationen
von Parametern I, II und III erhalten werden:
- – Parameter
I:
i) die Intensität
des nach dem Schritt des Tiefpassfilterns abgeleiten Signals,
ii)
die Intensität
des Signals ohne die Tiefpassfilterung,
iii) die Tonhöhe des Signals
ohne die Tiefpassfilterung, und
iv) die Tonhöhe des nach
dem Schritt des Tiefpassfilterns abgeleiteten Signals;
- – Parameter
II, die aus einer Abfolge von Werten eines Parameters I während der
Dauer des Sprachsignals erhalten werden:
1) eine Reihe von
lokalen Minima, dessen Elemente Werte in der Reihe sind, die einem
Minimum entsprechen,
2) eine Reihe von lokalen Maxima, dessen
Elemente Werte in der Reihe sind, die einem Maximum entsprechen,
3)
eine Reihe von Zeitdauern (Zeitintervallen), dessen Elemente Zeitwerte
sind, die (benachbarte) lokale Extremwerte trennen,
und
4)
eine Reihe, dessen Elemente alle aufeinander folgend abgetasteten
Werte der Abfolge sind; und
- – Parameter
III, die aus einer Reihe der Parameter II errechnet sind:
1)
der Mittelwert
2) das Maximum (d. h. der insgesamt höchste Wert),
3)
das Minimum (d. h. der insgesamt niedrigste Wert),
4) die Differenz
zwischen dem Maximum und dem Minimum,
5) die Varianz,
6)
der Median,
7) das erste Quartil,
8) das dritte Quartil,
9)
der Interquartilbereich, der als Differenz zwischen dem dritten
und dem ersten Quartil definiert ist,
10) Der Mittelwert des
absoluten Wertes der lokalen Ableitung;
wobei mindestens
eines der Merkmale von i) der Intensität des Signals nach dem Schritt
des Tiefpassfilterns oder von iv) der Tonhöhe des Signals nach dem Schritt
des Tiefpassfilterns des Parameters I stammt.
-
Vorzugsweise
umfassen die Parameter I insbesondere:
- i) die
Intensität
des Signals, das nach dem Schritt des Tiefpassfilterns abgeleitet
wird,
- ii) die Intensität
des Signals ohne die Tiefpassfilterung, und
- iii) die Tonhöhe
des Signals ohne die Tiefpassfilterung,
wobei die Kombination
insgesamt 120 verschiedene mögliche
Merkmale ergibt, wobei mindestens eines der Merkmale von i) der
Intensität
des Signals nach dem Schritt des Tiefpassfilterns der Parameter
I abgeleitet ist.
-
Vorzugsweise
umfassen die Parameter III insbesondere die folgenden fünf Parameter:
- 2) das Maximum (d. h. der insgesamt höchste Wert),
- 3) das Minimum (d. h. der insgesamt niedrigste Wert),
- 6) der Median,
- 7) das erste Quartil,
- 8) das dritte Quartil.
-
Vorzugsweise
umfasst der Schritt des Extrahierens das Extrahieren von mindestens
einem der folgenden möglichen
Merkmale:
- – das
Maximum (d. h. der insgesamt höchste
Wert),
- – das
Minimum (d. h. der insgesamt niedrigste Wert),
- – der
Median,
- – das
erste Quartil,
- – das
dritte Quartil,
berechnet aus:
- – der
Reihe von Werten des Intensitätssignals,
die nach dem Tiefpassfiltern des Sprachsignals abgeleitet werden,
- – der
Reihe von Minimumwerten des Intensitätssignals, die ohne das Tiefpassfiltern
des Sprachsignals abgeleitet werden,
- – der
Reihe von Tonhöhenwerten
des Signals, die nach dem Tiefpassfiltern des Sprachsignals abgeleitet werden,
und
- – der
Reihe von Tonhöhenwerten
des Signals, die ohne das Tiefpassfiltern des Sprachsignals abgeleitet werden.
-
Der
Schritt des Extrahierens kann das Extrahieren von Merkmalen umfassen,
die sowohl von dem Sprachsignal nach dem Schritt des Tiefpassfilterns
als auch von dem Sprachsignal ohne das Tiefpassfiltern abgeleitet
werden.
-
Es
kann auch das Extrahieren von Merkmalen nur von dem Sprachsignal
nach dem Schritt des Tiefpassfilterns umfassen.
-
Vorzugsweise
umfasst das mindestens eine Element der Gruppe von Merkmalen:
- 1: der Medianwert der nach dem Tiefpassfiltern
des Sprachsignals abgeleiteten Signalintensitätswerte,
- 2: der Mittelwert der nach dem Tiefpassfiltern des Sprachsignals
abgeleiteten Signalintensitätswerte,
- 3: der dritte Quartilwert der nach dem Tiefpassfiltern des Sprachsignals
abgeleiteten Signalintensitätswerte,
- 4: der erste Quartilwert der nach dem Tiefpassfiltern des Sprachsignals
abgeleiteten Signalintensitätswerte,
- 5: das Maximum der nach dem Tiefpassfiltern des Sprachsignals
abgeleiteten Signalintensitätswerte,
und
- 6: der Maximalwert der Reihe der nach dem Tiefpassfiltern des
Sprachsignals abgeleiteten Signalintensitätswerte.
-
Das
Verfahren kann weiterhin einen Schritt des Glättens eines Signals umfassen,
das von dem Sprachsignal vor dem Schritt des Extrahierens extrahiert
wird.
-
Bei
einer Ausführungsform
umfasst das Verfahren weiterhin einen Schritt des Erzeugens eines
Algorithmus zum Erkennen einer Emotion mit Hilfe eines Lernalgorithmus,
wobei der Lernalgorithmus das mindestens eine Merkmal, das von dem
Tiefpass gefilterten Sprachsignal extrahiert ist, anwendet.
-
Das
Verfahren kann weiterhin einen Schritt des Programmierens einer
Emotionserkennungsvorrichtung mit einem Offline-Algorithmus zum
Erkennen einer Emotion und/oder mit einem Online-Algorithmus zum Erkennen
einer Emotion umfassen, wobei der Algorithmus mindestens ein Merkmal,
das von einem Tiefpass gefilterten Sprachsignal extrahiert ist,
anwendet.
-
Gemäß einem
zweiten Aspekt betrifft die Erfindung eine Vorrichtung zum Erkennen
einer in einem Sprachsignal übermittelten
Emotion umfassend:
- – eine Extraktionseinrichtung
zum Extrahieren einer Gruppe, die mehr als ein von dem Signal abgeleitetes Merkmal
umfasst, und
- – eine
Verarbeitungseinrichtung zum Verarbeiten der Gruppe der (des) extrahierten
Merkmale (Merkmals), um daraus eine Emotion zu erkennen, wobei die
Vorrichtung eine Tiefpassfiltereinrichtung zum Tiefpassfiltern des
Sprachsignals vor dem Extrahieren des mindestens eines Merkmals
der Gruppe umfasst.
-
Die
Merkmale, die von der Extraktionseinrichtung extrahiert werden,
werden von denjenigen entnommen, die im unabhängigen Anspruch 14 angegeben
sind.
-
Die
optionalen Merkmale, die oben im Kontext des Verfahrens dargelegt
worden sind, werden entsprechend auf obige Vorrichtung angewendet
und werden der Übersichtlichkeit
halber nicht wiederholt.
-
Gemäß einem
dritten Aspekt betrifft die Erfindung eine Sprachsignalverarbeitungsvorrichtung,
insbesondere für
die Vorrichtung gemäß dem zweiten
Aspekt – oder
insbesondere für
die Implementierung des Verfahrens gemäß dem ersten Aspekt ausgebildet – dadurch
gekennzeichnet, dass sie eine Tiefpassfiltereinrichtung zum Bereitstellen
einer Tiefpass gefilterten Form des Sprachsignals an die Extraktionseinrichtung
umfasst.
-
Die
Erfindung und ihre Vorteile werden durch Lesen der nachfolgenden
Beschreibung der bevorzugten Ausführungsformen offensichtlicher,
die ausschließlich
nicht beschränkende
Beispiele mit Bezug auf die beigefügten Zeichnungen angibt, in
denen:
-
1 ein
Diagramm darstellt, das zeigt, wie einige Grundemotionen mit den
Parametern wie Valenz und Aufgeregtheit verbunden sind;
-
2a, 2b und 2c Signalverläufe darstellen,
die die Beziehung zwischen einem Sprachsignal (2a),
Tonhöhe
(2b) und Intensität (2c) darstellen;
-
3 ein
Blockdiagramm eines Systems zum Evaluieren, Charakterisieren und
Optimieren eines Emotionsdetektionsansatzes mit Hilfe eines Tiefpassfilterns
des Audiosignals zeigt, bei dem eine Emotion erkannt werden soll,
gemäß der vorliegenden
Erfindung;
-
4 eine
Kurve darstellt, die eine typische und ideale Tiefpassfilterantwortkurve
zeigt;
-
5 eine
Menge von Kurven darstellt, die die Antwort eines anpassbaren Grenzfrequenzfilters,
der in dem System der 3 verwendet wird, zeigt;
-
6 einen
Abtastsignalverlauf (Signalintensität über der Zeit) darstellt, der
zeigt, wie verschiedene berücksichtigte
Signalmerkmale abgeleitet werden;
-
7a, 7b und 7c Diagramme
zeigen, die verschiedene Verteilungen von Sprach-Sample darstellen, wenn diese gemäß verschiedenen
extrahierten Signalmerkmalen für
die Emotionserkennung analysiert werden, jeweils für ein ausgewähltes schlecht
informatives, gutes und noch besseres Merkmal;
-
8a und 8b Diagramme
einer erkannten Emotion gemäß der Intensitätsverteilung
des ersten und dritten Quartils darstellen, die den Grad des Erfolgs
der Emotionserkennung gemäß der Gruppierungseigenschaften
von Datenpunkten ausdrücken,
jeweils für
eine Detektion eines ungefilterten Signals und eines Tiefpass gefilterten
Signals mit einer Grenzfrequenz von 250 Hz;
-
9–13 Diagramme
zeigen, die die Leistungsfähigkeit
von verschiedenen Algorithmen darstellen, die für die Emotionserkennung bei
verschiedenen Bedingungen und verschiedenen Auswahlen von Signalmerkmalen
verwendet werden; und
-
14 zeigt
ein Blockdiagramm eines für
eine Emotion empfindlichen Systems, das eine Tiefpassfilterung der
Sprachsignale gemäß der Erfindung
implementiert.
-
Die
bevorzugte Ausführungsform
der Erfindung wird für
den Emotionserkennungsprozess als sprecherabhängig ausgewählt. Dies ist aus Sicht der
Industrie nicht nachteilig, wenn die Ausführungsform auf Roboterhaustiere
gerichtet ist, die z. B. nur mit ihren Herrchen interagieren sollen.
Auch die Tatsache, dass Roboter nur ihre Besitzer erkennen können, könnte sogar
ein positives Merkmal sein, da es eine Quelle von Verbundenheit
zwischen einem Roboter und seinem Besitzer ist. Jedoch können die
Prinzipien der Erfindung selbstverständlich auch für sprecherunabhängige Ansätze angewandt
werden, wie ebenfalls weiter ausgeführt wird.
-
Die
Ausführungsform
basiert auf eine Anwendung eines Roboterhaustiers mit vier Grundemotionszuständen, die
es in einer menschlichen Stimme erkennen soll: i) Ruhe, ii) Traurigkeit,
iii) Wut und iv) Glücklichkeit.
-
1 zeigt,
wie diese Emotionen in einem Diagramm angeordnet sind, das einen „Emotionsraum" darstellt, in dem
die Parameter „Valenz" und „Aufgeregtheit" entlang der vertikalen
bzw. horizontalen Achse 2 und 4 dargestellt sind. Die Valenz-Achse
reicht von negativen zu positiven Werten, während die Aufgeregtheits-Achse
von niedrigen zu hohen Werten reicht. Der Kreuzungspunkt 0 dieser
Achsen ist die Mitte des Diagramms und entspricht einem Ruhe/neutralen
Zustand. Ausgehend von diesem Punkt sind vier Quadranten definiert,
von denen jeder eine Emotionszustand enthält, wie folgt: Glücklichkeit/lobend
(Quadrant Q1), gekennzeichnet durch eine positive Valenz und hohe
Aufgeregtheit, Trostberuhigend (Quadrant Q2), gekennzeichnet durch
eine positive Valenz und eine niedrige Aufgeregtheit, Traurigkeit
(Quadrant Q3), gekennzeichnet durch eine negative Valenz und eine
niedrige Aufgeregtheit und Wut/ermahnend (Quadrant Q4), gekennzeichnet
durch eine negative Valenz und hohe Aufgeregtheit.
-
Die
Rahmenbedingungen für
die Ausführungsformen
sind folgende:
- – Personen können sehr
frei mit dem Roboterhaustier sprechen,
- – Personen
können
sehr kurze Sätze äußern, wie
z. B. „Aibo,
du bist wirklich ein schlimmer Roboter!"
- – die Äußerungen
müssen
in einer geräuschbehafteten
Umgebung erkannt werden, und
- – mehrere
Personen müssen
mit dem Roboter interagieren können,
wobei eine Auswahl der Sprecherabhängigkeit oder -unabhängigkeit
vorgenommen werden muss.
-
Einige
dieser Rahmenbedingungen setzen voraus, dass die Äußerungen
auf eine auf Kinder gerichtete Sprache beschränkt sind.
-
Zu
Anfang wurde eine Untersuchungsstrategie entwickelt, um festzustellen,
wie man diese Ziele am besten erreichen kann. Diese Strategie kann
wie folgt zusammengefasst werden:
- i) ein Experiment
mit einfachen Merkmalen, einfachen Algorithmen und kleinen Datenbanken,
- ii) ein systematisches Herausfinden von Merkmalen und Lernalgorithmen
für den
sprecherabhängigen
Fall:
a) mit vielen Beispielen mit Hilfe einer Datenbank mit
Sample von zwei Sprechern, einem männlichen und einem weiblichen,
b)
mit nur wenigen Beispielen der obigen Zwei-Sprecher-Datenbank, und
- iii) Durchführen
von Experimenten in Situationen des täglichen Lebens mit flüssiger Sprache.
-
Untersuchungsdatenbank
-
Die
Untersuchung wurde durchgeführt,
indem sehr große
Datenbanken von zwei Sprechern verwendet werden, die informelle,
kurze emotionelle Äußerungen
enthalten. Alle Experimente wurden mit Hilfe der frei verfügbaren Data-Mining-Software
Weka durchgeführt,
die die meisten der Standard-Data-Mining-Techniken implementiert,
wobei Informationen darüber
auf der Weka-Website bei http://www.cs.waikato.ac.nz/~ml/ gefunden
werden können.
-
Um
ausreichend große
Datenbanken zu erhalten, mussten einige Kompromisse gemacht werden
(die Aufzeichnungsbedingungen, die in Slaney et al, 1998 oder Breazal
2000 beschrieben wurden, sind ziemlich schlecht und unpraktisch).
Demgemäß verwendete
die Datenbank, die für
die experimentelle Untersuchung verwendet wurde, zwei professionelle
japanische Sprecher (einem männlichen
und einer weiblichen), die beide Sprachdarsteller sind und in vielen
Radio/TV-Werbesendungen
sowie an japanischen Synchronisationen von Filmen und Animationen
gearbeitet haben. Sie wurden gebeten, alltägliche Sprache durch Ausdrücke von kurzen
Sätzen
oder Äußerungen
wie „Mhhmm", „Ich weiß nicht", „Genau!", „Schau
her!", „Hallo!", „Ich verstehe", „Wie geht
es Ihnen?", „Was für Essen
möchten
Sie?", „Wunderbar!", „Wissen
Sie" nachzusprechen.
Vor jeder Äußerung mussten
sie sich in eine Situation versetzen, in der sie den Satz wiedergeben
könnten,
und die einer der vier Emotionsklassen entsprechen würde: Freude/Vergnügen, Sorge/Traurigkeit/Gram,
Wut, Normalität/Neutralität. Wenn
mehrere Emotionen mit der Bedeutung des Satzes kompatibel waren,
wurde ihnen erlaubt, jeden Satz mit der entsprechenden Emotion auszusprechen.
Die resultierende Datenbank umfasste 200 Beispiele pro Sprecher
und pro Emotion mit insgesamt 2000 Sample.
-
Die
Datenbank speicherte die Klangaufnahmen der Sample in digitaler
Form, so dass auf jedes Sample auf Wunsch zugegriffen werden konnte
und wiedergegeben werden konnte.
-
Die
zwei Hauptmessungen, die betreffend der Intonation vorgenommen wurden,
waren die Tonhöhe und
die Intensität,
wie es in allen oben angeführten
Arbeiten vorgenommen wurde.
-
Die 2a–2c stellen
dar, wie die zwei physikalischen Parameter Tonhöhe und Intensität von dem
Sprachsignal abgeleitet werden. Das letztere ist in 2a als
eine Hillkurve dargestellt, die man z. B. direkt von einem Mikrofonausgang
oder von der Wiedergabe eines Sprach-Sample erhalten kann. Der Signalverlauf
ist die Schwankung der Signalamplitude (vertikale Achse) als Funktion
der Zeit (horizontale Achse). In der Darstellung wird die Signalstärke einem
Nullwert auf der Mittelwertposition zugeordnet, von der aus sie
negative (niedrige Amplitude) und positive (hohe Amplitude) Werte
annehmen kann.
-
Die
Tonhöhe
ist eine subjektive Qualität
eines Klangs, die seine Position in einer Tonleiter oder in einem
Sprachspektrum bestimmt. Sie kann als Frequenz des reinen Tons der
bestimmten Intensität
gemessen werden, die von dem durchschnittlichen Ohr als die gleiche
Stelle der Tonleiter oder des Sprachspektrums belegend angesehen
wird. 2b zeigt eine Variation der
Tonhöhe über der
Zeit. Hier wird die Tonhöhe
gemäß einer
Frequenz (vertikale Achse) für
einen bestimmten Zeitwert gemessen.
-
Die
Intensität
ist eine Messung der Klangenergie, die über ein bestimmtes Frequenzspektrum
integriert wird. 2c stellt die Variation der
Intensität über der
Zeit dar, wobei die Intensität
als Dezibel (dB) gemessen wird.
-
Zusätzlich wurden
gemäß einem
Merkmal, das für
die vorliegende Erfindung spezifisch ist, Messungen einer Tiefpass
gefilterten Form des elektronischen Signals vorgenommen, das die Äußerungen
enthält
und nachfolgend als das Sprachsignal bezeichnet wird.
-
3 zeigt
schematisch ein System 1 zum Bewerten der Leistungsfähigkeit
bei der Erkennung einer Emotion mit der Möglichkeit des Tiefpassfilterns
des Sprachsignals.
-
Das
Sprachsignal erhält
man entweder direkt von einem Mikrofon 6 oder von der oben
beschriebenen Datenbank von aufgezeichneten Äußerungen 8. Im letzteren
Fall kann jedes der Sample wahlweise in einem Audioformat, z. B.
von einem Festplattenlaufwerk, ausgelesen werden, um so ein Audiosignal
der entsprechenden Äußerung an
einem Audioausgang 10 zu erhalten. Das Signal von dem Mikrofon 6 oder
dem Audioausgang 10 der Datenbank wird einem Audioeingang 12 einer
Audioverstärkereinheit 14 zugeführt, die
eine Impendanzanpassung, eine Vorverstärkung und steuerbare Verstärkungsfunktionen
bereitstellt. Das so vorbereitete Audiosignal wird einem Audioausgang 16 zugeführt, von
wo es einem Tiefpassfilter 18 zugeführt wird. In dem System 1 weist
der Tiefpassfilter 18 eine anpassbare Grenzfrequenz Fco
auf, deren Wert durch eine Grenzfrequenzauswahleinheit 20 ausgewählt wird.
-
4 zeigt
eine typische Frequenzantwort des Tiefpassfilters 18 mit
einer Kurve 22, die die Variationen des übertragenen
Audiosignalpegels über
der Frequenz für
einen Eingang mit einer konstanten Amplitude über dem Frequenzbereich darstellt.
Die Grenzfrequenz Fco wird als der Punkt bei einer halben Dämpfung entlang
der Frequenzskala gezeigt. Idealerweise entspricht die Grenzfrequenz
dem Frequenzwert jenseits von dem der Tiefpassfilter kein Signal überträgt. Die
Schärfe
hängt von
der Filterkennlinie ab, z. B. der Ordnung des Filterns, um sich
an den idealen Tiefpassfilterantwort 24 anzunähern.
-
5 zeigt,
wie sich die Frequenzantwort gemäß der Grenzfrequenz
Fco ändert,
die durch die Auswahleinheit 20 ausgewählt wird, mit den drei Kurven,
die als 22a, 22b und 22c, die den jeweiligen
Fco-Werten von 200 Hz, 250 Hz und 320 Hz entsprechen, dargestellt
ist. Die Form der Antwortkurven ist im Wesentlichen die gleiche.
In dem System der 3 weist der Tiefpassfilter eine
kontinuierlich anpassbare Grenzfrequenz Fco auf, um feine Pegelvergleiche
zu erhalten. Die Grenzfrequenzauswahleinheit 20 kann elektronisch
gesteuert werden, um eine Filterkomponente zu variieren, wie z.
B. eine oder mehrere Varicap-Dioden.
-
Der
Filter 18 ist als ein analoger Schaltkreis mit Hilfe von
Operationsverstärkern
aufgebaut. Solche Tiefpassfilter mit anpassbarer Grenzfrequenz sind
im Stand der Technik wohl bekannt und werden hierin aus Gründen der
Klarheit nicht weiter beschrieben. Selbstverständlich kann es als gleichwertig
angesehen werden, die Tiefpassfilterfunktion vollständig durch
digitale Filtertechniken z. B. mit Hilfe von digitalen Signalprozessoren
zu realisieren, die ebenso aus dem Stand der Technik wohl bekannt
sind. In diesem Fall würde
das zugeführte
Audiosignal anfänglich
digitalisiert werden, um es durch die Filterelektronik zu verarbeiten,
wobei die letztere die Antwortkurve 22 in eine geeignete
digital codierte Form erzeugt.
-
Die
Ausgabe von dem Tiefpassfilter 18 wird dann einem ersten
Eingang 28a einer Audioschnittstelle 28 einer
Merkmalsmessstation 30 zugeführt, die als eine funktionelle
Einheit dargestellt ist, die mit einer PC-basierten Steuereinheit 32 zusammen
arbeitet.
-
Es
gibt auch einen getrennten Pfad, der von dem Audioausgang 16 direkt
zu einem zweiten Eingang 28b der Audioschnittstelle 28 der
Merkmalsmessstation 30 führt. Die zwei Eingänge 28a und 28b stellen
getrennte Eingangskanäle
dar, die es der Merkmalsmessstation 30 ermöglichen,
wahlweise das Audiosignal in seiner Tiefpass gefilterten Form und
in seiner nicht gefilterten Form zu verarbeiten.
-
Die
PC-basierte Steuereinheit 32 ist aus einem Monitor 34 und
einer Tastatur 36, die die Systemschnittstelle bildet,
und einem vollständigen
PC-artigen Computer 38 für die Verarbeitung, einem Laufwerk
und Datenspeicherfunktionen zusammengesetzt. Die Merkmalsmessstation 30 ist
programmierbar, um verschiedene Merkmale des Signals, das an seinem
Signaleingang 28 anliegt, zu extrahieren. Da die Merkmalextraktion,
die von der Station 30 zur Verfügung gestellt wird, auf digitalen
Verarbeitungstechniken basiert, ist sein Signaleingang 28 an
einen internen Analog-Digital-Wandler
(ADC) 40 angeschlossen. Das gefilterte Audiosignal wird
dann als Binärworte
verarbeitet, um die notwendigen Merkmale zu extrahieren, die nachfolgend
erläutert
werden.
-
Die
Messungen der verschiedenen Merkmale, die durch die Station 30 vorgenommen
werden, werden in einem Datenprotokollierer 42 gespeichert,
wo auf sie durch eine funktionale Einheit 44, die Emotionserkennungsalgorithmen
durchführt,
zugegriffen werden kann. Die Algorithmen zielen darauf ab, eine
in einem Sprachsignal ausgedrückte
Emotion auf Basis der Signalmerkmale, die durch die Station 30 extrahiert
werden, herauszufinden. Typischerweise zeigt ein zu überprüfender Algorithmus
in der Einheit 44 die herausgefilterten Emotionen (Ruhe,
Glücklichkeit)
und verschiedene interne Parameter an. Die Erkennungseinheit 44 kann
somit verschiedene Emotionserkennungsalgorithmen ausführen und
ihre entsprechenden Ergebnisse und internen Parameter erzeugen.
-
Diese
Information wird einer Ergebnisanalyseeinheit 46 zugeführt, in
der verschiedene Algorithmen und/oder Merkmalsauswahlen hinsichtlich
der Bestimmung einer optimalen Auswahl verglichen werden können.
-
Es
kann vorgesehen sein, dass die funktionalen Einheiten, die aus der
Merkmalsmessstation 30, dem Datenprotokollierer 42,
der Ausführungseinheit 44 für den Emotionserkennungsalgorithmus
und dem Ergebnisanalysierer 46 zusammengesetzt sind, physikalisch
durch die PC-basierte Steuereinheit 32 implementiert sein
können,
wie es durch die gestuften Doppelpfeile angegeben ist.
-
Das
System umfasst weiterhin eine Programmiereinheit PU, deren Funktion
darin besteht, verschiedene Emotionserkennungssystem auf Basis der
am besten geeigneten Ergebnisse zu programmieren. Bis dahin ist
die Programmiereinheit PU funktional mit dem Ergebnisanalysierer 46 sowie
mit der PC-basierten Steuereinheit 32 und anderen Einheiten
verbunden, um so alle Algorithmen, Parametereinstellungen, zu extrahierende
Merkmale und andere Optimierungen aufzuzeichnen. Die Aufzeichnung
dieser Information wird gemäß einem
vorbestimmten Protokoll durchgeführt,
so dass die Programmierdaten in eine geeignete Programmierschnittstelle
eines emotionsempfindlichen Systems, wie z. B. ein Roboterhaustier
und dgl., heruntergeladen werden können. Die Programmiereinheit
PU kann von dem Rest des Systems lösbar vorgesehen sein und für eine Feldprogrammierung
tragbar sein und/oder zum Erzeugen von Programmdaten auf einem tragbaren
Aufzeichnungsmedium, wie z. B. einer Disc, einem Halbleiterspeicher
und dgl. ausgebildet sein.
-
Die
durch die Merkmalsmessstation 30 durchgeführten Messungen
basierten auf der Intensität
der Tiefpass gefilterten Form des Sprachsignals, das man von dem
Filter 18 erhalten hat. (Davon unabhängige Experimente wurden auch
auf den Hochpass gefilterten Formen durchgeführt, bei denen statt dessen
ein Hochpassfilter verwendet wurde.)
-
Für das Tiefpassfiltern
wurde die Grenzfrequenz üblicherweise
auf 250 Hz eingestellt (der bestimmte Wert scheint nicht entscheidend
zu sein), wobei die Idee darin besteht, das Signal in eine reine
prosodische Komponente und eine reine „cepstrale" Komponente aufzuteilen.
-
Die
Sample von der Datenbank 8 stellen somit Klangmuster bereit,
auf denen verschiedene Messungen in der Station 30 vorgenommen
werden können.
Psychoakustische Messungen haben ergeben, dass die wichtigste Information
die Prosodie (die Intonation) ist und insbesondere die Tonhöhenkurve
(f0) (s. 2b) und die Intensitätskurve
(I0) (s. 2c) sind.
-
Bei
der Bewertung wurden drei verschiedene Signale durch die Station 30 verarbeitet:
- i) die Intensität des Signals nach dem Tiefpassfiltern,
- ii) die Intensität
des Signals ohne ein Tiefpassfiltern, und
- iii) die Tonhöhe
des Signals ohne ein Tiefpassfiltern.
-
Das
erste Signal i) wird dem Eingang 28a entnommen, während die
letzten zwei Signale von dem Eingang 28b der Merkmalsmessstation 30 entnommen
werden.
-
Es
wird angemerkt, dass die Tonhöhe
des Signals auch nach dem Tiefpassfiltern entweder anstelle des
nicht gefilterten Signals iii) oder zusätzlich gemessen werden kann,
wobei die Anzahl der Signale bei der Bewertung insgesamt vier entspricht.
Jedoch haben Experimente gezeigt, dass die durch die Tonhöhe bereitgestellte
Information, die von dem Tiefpass gefilterten Signal analysiert
wird, im Allgemeinen nicht erheblich von derjenigen abweicht, die
durch die Tonhöhe
des ungefilterten Signals bereitgestellt wird. Demgemäß werden
nur Signale i) bis iii) tatsächlich
bei der Bewertung benutzt.
-
Nach
dem Tiefpassfiltern wurde die Intensitätskurve des resultierenden
Signals i) auf dieselbe Weise gemessen wie die für das ungefilterte Signal.
-
Abschließend, der
Vollständigkeit
halber, wurde eine cepstrale Messung von Signalen iv) durchgeführt, die
von der Normalen der absoluten Vektorableitung der ersten zehn MFCC
(mel-frequency cepstral components) berechnet werden. Bei der Spracherkennung
wird zu jedem Zeitschritt häufig
eine Messung des cepstralen Inhaltes durchgeführt, der ein Parameter darstellt,
der zur Anregung der verschiedenen Nerven in dem Cochlea äquivalent
ist. Diese können
verschiedenen cepstralen Koeffizienten des Signals entsprechen. Die
Messung führt
die Mittelwertbildung der lokalen Steigung der Ableitungen der Vektoren
in dem Cepstra durch. Üblicherweise
ergeben diese Messungen zehn Koeffizienten mit zehn Werten, die
sich über
die Zeit ändern
und stellen die Differenz zwischen aufeinander folgenden Vektoren
dar, von denen man die Norm der Vektoren ableiten kann.
-
Alle
diese obigen Messungen i)–iv)
wurden zu jedem Zeitfenster zu 0,01 Sekunden mit Hilfe eines Signalverarbeitungs-Toolkits
durchgeführt,
das frei unter dem Namen „Praat
Software" erhältlich ist,
worüber man
Informationen auf der Website http://www.praat.org erhalten kann.
-
Insbesondere
wurde die Tonhöhe
mit Hilfe des in Boersma P. (1993) -„Accurate short-term analysis
of the fundamental frequency and the harmonics-to-noise ratio of
a sampled sound",
in Proceedings of the Institute of Phonetic Sciences of the University
of Amsterdam, 17, 97–110
1993, beschriebenen Algorithmus berechnet, der als sehr genau bekannt
ist.
-
Nachfolgend
werden die cepstralen Messsignale iv) nicht bei der Wertung berücksichtigt;
nur Messungen der Signale i)–iii),
die oben angeführt
sind, sollen berücksichtigt
werden.
-
Jede
der Messungen stellt eine Reihe von Werten zur Verfügung, die
transformiert wurden, um verschiedene Ansichtspunkte der Daten zu
erhalten.
-
Das
Verfahren zum Erhalten der Reihe von Werten ist wie folgt: Für ein bestimmtes
Sprach-Sample aus der Datenbank 8, das üblicherweise einem kurzen Satz
entspricht, speichert die Merkmalsmessstation 30 das entsprechende
Sprachsignal, das an dem Eingang erzeugt wird (Kanal 28a oder 28b,
abhängig
von dem zu analysierenden obigen Signal i), ii), iii)). Die Signale
werden anfänglich
auf 10 Hz geglättet.
-
Aus
diesen 10 Hz geglätteten
Signalen wird jedes der oben beschriebenen drei zeitlich variierenden Signale
i)–iii)
berechnet.
-
Jedes
so berechnete Signal i)–iii)
wird digital bei z. B. in Intervallen zu 0,01 Sekunden abgetastet.
Jedes Abtasten erzeugt einen absoluten Momentanwert der Intensität (Signale
i) und ii)) oder der Tonhöhe
(Signal iii)).
-
Für jedes
abgetastete Signal erhält
man somit eine Folge von Abtastwerten, üblicherweise einige hundert,
vorausgesetzt, dass ein Satz mehrere Sekunden lang ist.
-
Die
Abfolge der Werte wird in zeitlicher Reihenfolge gespeichert, beginnend
mit dem Wert des frühestens
Teils des Signals, so dass die Abfolge der Werte die zeitliche Variation
des betrachteten Signals i), ii) oder iii) angibt.
-
Für jedes
Signal wird die entsprechende zeitlich geordnete Abfolge von Werten
analysiert, um die folgenden vier Wertereihen zu erzeugen:
- 1) Die Reihe der lokalen Minima. Dies beinhaltet
das Bestimmen der Werte der Abfolge, die einem Minimum entspricht
und dem Konstruieren einer Reihe, die aus diesen Minimalwerten der
Abfolge gebildet wird. Die Reihe wird in zeitlicher Reihenfolge
gespeichert, beginnend mit dem frühesten Minimum. Ein Minimum
der Abfolge von Werten wird als ein Element der Abfolge identifiziert,
dessen Wert kleiner ist als der seines unmittelbar vorangehenden
und unmittelbar nachfolgenden Nachbarn in der Abfolge.
- 2) Die Reihe der lokalen Maxima. Dies beinhaltet das Bestimmen
der Werte in der Abfolge, die einem Maximum entspricht und dem Ausbauen
einer Reihe, die aus diesen Maximalwerten der Abfolge gebildet ist. Die
Reihe wird in zeitlicher Reihenfolge gespeichert, beginnend mit
dem frühesten
Maximum. Ein Maximum in der Abfolge von Werten wird als ein Element
der Abfolge identifiziert, dessen Wert größer ist als der seines unmittelbar
vorangehenden und unmittelbar in der Abfolge nachfolgenden Nachbars.
- 3) Die Reihe von Zeitdauern (Zeitintervallen) zwischen lokalen
(benachbarten) Extremen (wodurch rhythmische Aspekte des Signals
moduliert werden). Ein Extremum ist entweder ein Minimum oder ein
Maximum. Dies beinhaltet zunächst
das Identifizieren der Werte in der Abfolge, die einem Minimum oder
einem Maximum entsprechen, indem jeder Wert mit seinem unmittelbar
vorangehenden Nachbarn, wie bei den obigen Reihen 1) und 2). Dann
werden die zeitlichen Positionen der identifizierten Extrema analysiert,
um die Zeitintervalle, die aufeinander folgende Extrema trennen,
zu bestimmen. Diese Zeitintervalle werden in einer Reihe erfasst,
beginnend mit dem Intervall, das das früheste und nächst früheste Extremum voneinander
trennen, um die Reihe der Zeitintervalle zu erhalten.
- 4) Die Reihe selbst. Dies beinhaltet einfach das Bilden einer
Reihe aus allen aufeinander folgend abgetasteten Werten der Abfolge,
beginnend von dem Beginn des abgetasteten Sprachsignals.
-
6 zeigt,
wie man diese vier Reihen von Werten aus dem der Messung unterzogenen
Signal erhält.
-
Es
wird angemerkt, dass für
jedes oben gemessene Signal i)–iii)
die vier obigen Reihen von Werten 1)–4) extrahiert werden, wodurch
man insgesamt 12 Reihen von Werten pro Audio-Sample der Datenbank
erhält.
-
Abschließend werden
die folgenden zehn statistischen Eigenschaften für jede der zwölf Serien
von Werten berechnet:
- 1) der Mittelwert,
- 2) das Maximum (d. h. der insgesamt höchste Wert),
- 3) das Minimum (d. h. der insgesamt niedrigste Wert),
- 4) die Differenz zwischen dem Maximum und dem Minimum,
- 5) die Varianz,
- 6) der Median,
- 7) das erste Quartil,
- 8) das dritte Quartil,
- 9) der Interquartilbereich, der als Differenz zwischen dem ersten
und dem dritten Quartil definiert ist,
- 10) der Mittelwert des absoluten Wertes der lokalen Ableitung.
-
Alle
Daten werden anfänglich
normalisiert, bevor diese statistischen Eigenschaften berechnet
werden.
-
Die
resultierende Kombination dieser zehn Eigenschaften, die auf die
vier Reihen angewendet werden, führt
zu 3·4·10 = 120
Merkmalen.
-
Lernalgorithmen
-
Nachdem
man alle diese Werte für
jedes Signal erhalten hat, wurde als nächstes ein Experiment ausgeführt, das
verschiedene automatisierte Lernmethoden durchgeführt hat.
Die letzteren sind in der Lage, von einer bestimmten Anzahl von
Beispielen zu lernen und zu verallgemeinern. Viele solcher Verfahren
sind bekannt, wobei jedes seine Vorteile und Nachteile hat. Der
vorliegende Ansatz macht ziemlich erschöpfenden Gebrauch von diesen
Algorithmen.
-
Jeden
getesteten Lernalgorithmus wird eine Grundmenge von Beispielen zugeführt. Die
Leistungsfähigkeit
für jede
festgelegte Grundmenge wird dann gegen eine andere beispielhafte
Grundmenge überprüft. Dies
ermöglicht
es, einen Prozentsatz von korrekten Verallgemeinerungen zu bestimmen,
die durch jeden Lernalgorithmus vorgenommen werden.
-
Es
gibt viele Lernschemata, die in den letzten 20 Jahren entwickelt
worden sind (z. B. Witten, I. Frank E. (2000) „Data Mining", Morgan Kaufflan
Publishers) und sie sind oft nicht äquivalent zueinander: einige
sind effizienter mit bestimmten Typen von Klassenverteilungen als
andere, während
andere besser darin sind, mit vielen irrelevanten Merkmalen umzugehen
(was, wie man später
sieht, hier der Fall ist) oder mit strukturierten Merkmalsgruppen
(denen dieses die „syntaktische" Kombination der
Werte der Merkmale ist, die sehr bedeutsam ist). Da gemäß Definition
die Struktur der Daten und/oder der Relevanz/Irrelevanz dieser Merkmale
unbekannt ist, wird es ein Fehler sein, das Problem nur mit sehr
wenigen Lernschemata zu untersuchen. Folglich wurde entschieden,
eine Gruppe der repräsentativsten
Lernschemata zu verwenden, die von neuronalen Netzwerken zu Regelinduktion
oder Klassifizierung durch Regression reicht. Auch eines der besten
Meta-Lernschemata wurde verwendet, nämlich AdaBoostM1 (Witten and
Frank, 2000, wie oben angeführt),
das die Verallgemeinerungsleistung für unstabile Lernschemata wie
Entscheidungsbäume
(ein unstabiler Lernalgorithmus ist einer, der manchmal sehr verschiedene
Erkennungsmaschinen erzeugen kann, wenn nur eine kleine Änderung
in der Lerndatenbank vorgenommen worden ist) erheblich verbessert.
Ein Grund für
das Auswählen der
Weka Software lag darin, dass sein Code und seine Ausführbarkeit
frei verfügbar
sind, so dass das Experiment in seiner gesamten Breite einfach nachvollzogen
werden kann. Diese Software stellt auch Mittel wie eine automatische
Kreuzvalidierung oder die Suche von Merkmalsräumen mit z. B. genetischen Algorithmen zur
Verfügung,
wie es später
beschrieben wird. Die Liste aller Lernalgorithmen wird in der nachfolgenden
Tabelle I angegeben.
-
Tabelle
I: Liste der untersuchten Lernalgorithmen
-
Weitere
Details über
diese Details können
in Witten und Frank, 2000, die oben aufgeführt sind, gefunden werden.
-
In
einem ersten Experiment wurde eine Bewertung durchgeführt, bei
der alle Algorithmen allen (normalisierten) Merkmalen zugeordnet
wurden und mit 90 Prozent der Datenbank trainiert wurden und mit
den verbleibenden 10 Prozent getestet wurden. Dies wurde zehnmal
wiederholt, wobei jedes Mal eine unterschiedliche 90/10 Prozent-Aufteilung erfolgt
ist (eine zehnfache Kreuzbewertung wurde somit durchgeführt).
-
Nachfolgende
Tabelle II gibt den durchschnittlichen Prozentsatz der korrekten
Klassifikationen für
die zehnfache Kreuzvalidierung der verschiedenen verwendeten Algorithmen
an.
-
Tabelle
II: Ergebnisse bei Verwendung aller Merkmale von zwei verschiedenen
Sprechern (1 und 2)
-
Man
kann bei diesen Ergebnissen beobachten, dass man eine sehr Erfolgsrate
(zwischen 92 und 97 Prozent), die höher ist als jedes andere in
der Literatur berichtete Ergebnis, durch die Verwendung von bestimmten
Algorithmen erhalten kann. Jedoch ist der Unterschied zwischen den
Algorithmen erheblich: Wenngleich man die besten Ergebnisse man
mit den „Aidaboosted" Entscheidungsbäumen und
Regeln erhielt, lieferten einige andere nur 10 Prozent darunter
liegende (wie „nächste Nachbarn", „RBF neuronale
Netze" oder „Support-Vektor-Maschinen", die typischerweise
bei anderen Untersuchungen verwendet wurden) oder sogar 20 Prozent
darunter liegende (Gruppen von Perzeptronen). Dies zeigt, dass man
aufpassen muss, wenn man versucht, viele verschiedene Lernschemata
auszuprobieren, wenn man ein Problem lösen will, über das es sehr wenig Vorwissen
oder intuitives Wissen gibt.
-
Merkmalsauswahl
-
Nach
diesem ersten Experiment besteht der nächste Schritt darin, herauszufinden,
wie die Merkmalsgruppe reduziert werden kann, aus drei Gründen:
- 1) Man kann erwarten, dass eine kleine Merkmalsgruppe
eine bessere Verallgemeinerungsleistung hervorbringt (s. Witten
and Frank, 2000, wie oben angeführt);
- 2) Es ist rechentechnisch günstiger,
weniger Merkmale zu verarbeiten;
- 3) Es ist interessant herauszufinden, ob die nützlichsten
Merkmale für
die Maschinenlernalgorithmen diejenigen sind, die auch sonst in
der psychoakustischen Literatur herausgestellt sind.
-
Ein
erster Weg, die Merkmalsgruppe herauszufinden, besteht darin, sich
die Ergebnisse der Lernschemata wie Entscheidungsregeln (PART) anzuschauen,
die oft hauptsächlich
als Einrichtungen zur Ermittlung von Wissen verwendet werden.
-
Eine
bestimmte Auswahl von Regeln und Parametrisierungen, die von dem
Anmelder erzeugt und getestet wurden, ist:
-
Beispiel 1
-
- If MEDIANINTENSITYLOW > 0.48
and
- MINMINIMASPITCH <=
0.07 and
- THIRDQUARTINTENSITY > 0.42
==> CALM
- ELSE If MEANINTENSITYLOW <=
0.58 and
- MEDIANINTENSITYLOW <=
0.29 ==> ANGRY
- ELSE If THIRDQUARTINTENSITYLOW > 0.48 ==> SAD
- ELSE ==> HAPPY
- (Das Symbol „<=" bedeutet „kleiner
als oder gleich").
- Alle numerischen Werte sind normalisiert.
-
Die
Definition der deklarierten Variablen in dem obigen Algorithmus
ist wie folgt:
- – MEDIANINTENSITYLOW: der Medianwert
der Reihen der Werte der Intensität des Signals nach dem Tiefpassfiltern;
- – MINMINIMASPITCH:
der Wert des kleinsten Minimums in der Reihe der Minima in der Tonhöhe des Signals
ohne Tiefpassfiltern;
- – THIRDQUARTINTENSITY:
der Wert des dritten Quartils in der Reihe der Werte der Intensität des Signals ohne
Tiefpassfiltern;
- – MEANINTENSITYLOW:
der Mittelwert der Reihe der Intensitätswerte des Signals nach dem
Tiefpassfiltern;
- – THIRDQUARTINTENSITYLOW:
der Wert des dritten Quartils in der Reihe der Intensitätswerte
des Signals nach dem Tiefpassfiltern.
-
Diese
vier und überraschend
einfachen Regeln ermöglichen
einen bemerkenswert hohen Prozentsatz von korrekten Klassifikationen
bei einer Verallgemeinerung von 94 Prozent für die Sprecher 2- Datenbank.
Die auffallende Tatsache besteht in dem wiederholten Gebrauch der
Merkmale, die die Intensität
des Tiefpass gefilterten Signals betreffen.
-
Verschiedene
Gruppenregeln können
für eine
optimierte Leistung mit verschiedenen Sprechern/Sprachen angepasst
werden. Die Wahl einer geeigneten Gruppe von Regeln für einen
bestimmten Sprecher/Sprache kann empirisch bestimmt werden.
-
Eine
andere Ansicht der Merkmalsgruppe kann man einfach durch Visualisierung
erhalten. Ein Beispiel einer solchen Visualisierung ist in 7a–7c dargestellt,
wobei jede ein Beispiel einer Reihe von Messungen für ein Merkmal
i, j und k darstellt, die jeweils aus untersuchten 160 Merkmalen,
wie oben beschrieben, ausgewählt
sind. Für
jede Reihe ist ein Raum in einem rechtwinkligen Kästchen 48a-48c definiert,
in das eine Anzahl von Punkten eingetragen ist. Jeder eingetragene
Punkt entspricht einer Identifikation der Sprach-Sample der Datenbank 8.
Die Position eines Punktes entspricht dem zugeordneten Messwert
für das betrachtete
Merkmal (entlang der horizontalen Skala). Die Emotion, die den aufgetragenen
Samples entspricht, wird durch den folgenden Schlüssel identifiziert:
Punkt = Ruhe, Kreuz = Traurigkeit, Strich = Wut, Kreis = Glücklichkeit.
In dem vollständigen
Experiment werden 160 solcher Linien erzeugt, für jedes Merkmal eine.
-
7a zeigt
eine typische Haphazard-Verteilung von Sample einer identifizierten
Emotion, die zeigen, dass das Merkmal i, von dem sie erzeugt sind,
keine gute Basis für
das Erkennen von Emotionen angibt. Jedoch gibt es eine Überlappung
zwischen benachbarten Clustern. Eine solche Verteilung ist ziemlich
typisch für ein
Merkmal, das von einem Sprachsignal extrahiert wird, dessen Intensität in den
Beispielen mit einer Grenzfrequenz (f0) bei 250 Hz Tiefpass gefiltert
worden ist.
-
Abschließend zeigt 7c eine
noch bessere Verteilung der Sample der identifizierten Emotionen, wobei
die Sample der Emotionen nicht nur gut geclustert sind, sondern
auch klar durch leere Bereiche voneinander getrennt sind. Solche
Ergebnisse erhält
man mit einigen Merkmalen, die von einem Sprachsignal extrahiert
werden, dessen Intensität
Tiefpass gefiltert worden ist.
-
(Es
wird angemerkt: Um ein Durcheinander zu vermeiden, sind nur ein
repräsentativer
Anteil der Sprach-Sample in der Figur eingetragen.)
-
Die
beeindruckenden Ergebnisse, die man durch das Tiefpassfiltern der
Intensität
des Sprachsignals erhält,
wurde mit verschiedenen Sprechern bestätigt.
-
In
dem Experiment wurden sechs Merkmale aus der Gruppe ausgewählt, um
das beste Clustern von Sample von Emotionen bei mindestens einigen
Leerbereichen zwischen ihnen zu erreichen.
-
Im
Allgemeinen erhält
man die besten Ergebnisse durch Berücksichtigen der folgenden Merkmale
der Tiefpass gefilterten Intensität des Sprachsignals:
- – Quartile,
insbesondere das erste und das dritte Quartil,
- – Maxima,
- – Minima,
und
- – den
Mittelwert.
-
Im
Gegensatz dazu erhält
man die am wenigsten schlüssigen
Ergebnisse aus Merkmalen, die die Varianz oder den Mittelwert der
absoluten Steigung des Tiefpass gefilterten Signals umfassen.
-
Um
die Annahme des Anmelders zu bestätigen, dass die Tiefpass gefilterte
Intensität
bei der Unterscheidung von Emotionen wesentlich ist, zeigen die 8a und 8b Darstellungen
von identifizierten Emotionen aus den Sample der Datenbank 8.
In diesen Darstellungen werden zwei Merkmale, für die vermerkt ist, dass sie
eine potentiell gute Emotionserkennung erreichen, auf entsprechenden
orthogonalen Achsen dargestellt: Das erste Quartil der Intensitätsverteilung
auf der vertikalen Achse (Ordinatenachse) und das dritte Quartil
der Intensitätsverteilung
auf der horizontalen Achse (Abszisse). Die Symbole, die verwendet
werden, um die vier verschiedenen Emotionen zu identifizieren, sind
die gleichen wie in den 7a–7c.
Auf ähnliche
Weise werden nur ein repräsentativer
Anteil von Symbolen eingefügt,
um ein Durcheinander zu vermeiden.
-
Die
Darstellungen der 8a werden aus den Sprach-Sample
der Datenbank ohne ein Tiefpassfiltern erzeugt, während die
Darstellungen der 8b aus den gleichen Sprach-Sample
erzeugt werden, jedoch nach einem Tiefpassfiltern bei einer Grenzfrequenz
von 250 Hz mit Hilfe des Filters 18 der 3.
Die Sprach-Sample stammten in beiden Fällen von dem gleichen Sprecher
(Sprecher 2). Der gleiche, sehr einschlägige Effekt tritt auch für Sprecher 1 auf;
Was jedoch interessant ist, ist, das die Cluster nicht an denselben Stellen
angeordnet sind (Wut und Glücklichkeit
sind um 90 Grad verdreht) wodurch die große Sprechervariabilität ersichtlich
wird, die anfänglich
angenommen wurde. Jedoch scheint es, dass die Verwendung von einigen
gut ausgewählten
Merkmalen für
jeden Sprecher sehr stabil ist.
-
Um
die individuelle Relevanz von Merkmalen oder Attributen zu quantifizieren,
gibt es eine Maßzahl, die
oft in der Data-Mining-Literatur verwendet wird, die den erwarteten
Informationsgewinn oder die gegenseitige Information zwischen Klasse
und Attribut bezeichnet. Sie entspricht der Differenz zwischen den
Entropien H(Klasse) und H(Klasse|Attribute) (s. Witten und Frank,
2000, wie oben angeführt,
für eine
ausführliche
Beschreibung, wie diese berechnet werden). Die nachfolgende Tabelle
III gibt die 20 besten Attribute gemäß dem Informationsgewinn, den
sie bereitstellen, an.
-
Tabelle
III: Informationsgewinn der 20 besten Merkmale
-
-
Diese
Tabelle bestätigt
den großen
Wert der Merkmale, die die ersten sechs Gruppen der Verteilung der
Intensitätswerte,
die die Tiefpass gefilterten Signale einschließen, betreffen. Sie zeigt auch
etwas ziemlich Überraschendes:
Unter den 20 meist unabhängigen
informativen Merkmalen sind nur drei (die Merkmale der Nummern 12,
16 und 20 in der Tabelle) Teil der Standardgruppe, die in psycho-akustischen
Studien hervorgehoben werden (Murray E., Arnott J. L., (1995) „Implementation
and testing of a system for producing emotin-by-rule in synthetic
speech", Speech
Communication, 16(4), S. 369–390;
Sendlmeier and Burkhardt 2000, wie oben angeführt, Stevens and Williams 1972,
wie oben angeführt)
oder in meisten von weiteren anwendungsorientieren Untersuchungen
wie in Slaney et. al. 1998, wie oben angeführt, Breazal 2000, wie oben
angeführt.
-
Nichts
desto weniger muss angemerkt werden, dass das einzelne Hervorstechen
eines Merkmals nur teilweise interessant ist: Es ist nicht selten,
dass der Erfolg von einer Kombination aus Merkmalen herrührt. Demgemäß hat der
Anmelder in einem ersten Experiment eine Merkmalsgruppe, die nur
die Merkmale 1–6
mit Bezug auf die Tiefpass gefilterte Signalintensität (LPF)
enthält,
mit einer Merkmalsgruppe, die aus den Standardmerkmalen (SF), die
in (Breazal 2000 oder Slaney et al. 1998) verwendet wird, verglichen:
- 1) Mittelwert,
- 2) Minimum,
- 3) Maximum,
- 4) Maximum-Minimum,
- 5) Varianz der Tonhöhe
des ungefilterten Signals,
- 6) Intensität
des ungefilterten Signals, und
- 7) Durchschnittliche Länge
der syllabischen Abschnitte.
-
(Die
Ergebnisse sind ähnlich,
wenn Jitter und Tremor hinzugefügt
werden, wie es manchmal auch verwendet wird.)
-
Tabelle
IV fasst diese Experimente zusammen (jede Zahl entspricht wieder
dem Durchschnittsprozentsatz von korrekten Klassifikationen bei
der Verallgemeinerung bei einer 10-fachen Kreuz-Validierung).
-
Tabelle
IV: Vergleich zwischen „Standard"-Merkmalen und Merkmalen
betreffend eine „Tiefpass
gefilterte Signalintensität"
-
-
Die
oben aufgeführten
Abkürzungen
entsprechen Folgendem: (LPF)sp.1 = Tiefpass gefiltertes Signal von
einem Sprach-Sample des Sprechers 1, (LPF)sp.2 = Tiefpass gefiltertes
Signal eines Sprach-Sample des Sprechers 2, (SF)sp.1 = Standard,
nicht gefiltertes Signal von einem Sprach-Sample des Sprechers 1
und (SF)sp.2 = Standard, nicht gefiltertes Signal von einem Sprach-Sample
des Sprechers 2.
-
Diese
Tabelle zeigt, dass sogar die Verwendung von nur den Quartilen der
Tiefpass gefilterten Signalintensität die Kombination der herkömmlich verwendeten
Merkmale übertrifft.
-
Um
die Aufgabe zu lösen,
eine sehr effiziente kleine Gruppe von Merkmalen herauszufinden,
implementierte der Anmelder ein automatisches Suchverfahren anhand
der Verwendung von logischen Algorithmen. Populationen von Merkmalen
(auf 30 beschränkt)
wurden erzeugt und einem Evolutionsprozess unterzogen, wobei die
Fitness der zehnfachen Kreuz-Validierung mit zwei Algorithmen: Naive
Bayes und Fünf-nächste-Nachbarn
(hauptsächlich
gewählt,
weil diese schnell zu trainieren sind) verwendet werden. Der genaue
genetische Algorithmus ist der einfache, der in Goldberg, D. E.
(1989) beschrieben wurde „Genetic algorithms
in search, optimization and machine learning, reading", MA: Addison-Wesley.
-
Das
Ergebnis dieses Experiments war nicht offensichtlich: Innerhalb
der ausgewählten
Merkmalsgruppe gab es Merkmale, die sich auf die Quartile der Tiefpass
gefilterten Signalintensität
und auf Merkmale, die sich auf die Quartile der Tonhöhe beziehen,
jedoch auch Merkmale mit einem relativ geringen individuellen Informationsgewinn:
Solche, die sich auf Quartile der Minimas der ungefilterten, geglätteten Intensitätskurve
beziehen.
-
Auch
wird es wieder angemerkt, dass der Maschinenlernalgorithmus dazu
tendiert, immer Merkmale, die die Varianz oder den Bereich der Verteilungen
betreffen, zu vernachlässigen,
ungeachtet der Messung.
-
Ein
letztes Experiment, das diese 15 Merkmale mit allen Lernalgorithmen
verwendet, wurde durchgeführt
(max, min, Median, drittes Quartil und erstes Quartil der Tiefpass
gefilterten Signalintensität,
Tonhöhe
und Minima der ungefilterten Signalintensität).
-
Die
Ergebnisse sind in der nachfolgenden Tabelle V zusammengefasst.
-
Tabelle
V: Ergebnisse des Lernschemas, das die „optimale" Merkmalsgruppe verwendet
-
Man
kann beobachten, dass die erhaltenen Ergebnisse sehr ähnlich zu
den anfänglich
erhaltenen besten Ergebnissen sind, jedoch mit über zehnmal weniger Merkmalen.
Weiterhin ist interessant, dass die Variation zwischen den Lernschemata
weniger wichtig ist und Algorithmen, die schlechte Ergebnisse hervorbrachten,
wie der Algorithmus des nächsten
Nachbarn oder Naive Bayes nun zufriedenstellendere Ergebnisse hervorbrachten.
-
Wenn nur sehr
wenige Beispiele zur Verfügung
stehen
-
In
dem vorangehenden Abschnitt wurden große Trainingsdatenbanken verwendet:
Dies war optimal, um Merkmale und Algorithmenräume herauszufinden. Wenn man
es jedoch mit einer sprecherabhängigen Aufgabe
zu tun hat, ist dies nicht direkt anwendbar auf z. B. ein Roboterhaustier
in der Realität.
Tatsächlich
ist es nicht vorstellbar, dass der Besitzer eines solchen Roboters
hunderte von überwachten
Beispielen angibt, um diesen zu lehren, wie er seine An des Ausdruckens
von Grundemotionen erkennt, sogar wenn es die An und Weise ist,
die wahrscheinlich bei menschlichen Babys und echten Haustieren
geschieht. Tatsächlich
sind Leute im Allgemeinen weniger angeregt, eine solche Menge an
Zeit mit Roboterhaustieren zu verbringen.
-
Es
wird dann selbstverständlich,
nachzufragen, welche Ergebnisse man erhält, wenn nur sehr wenige Trainingsbeispiele
gegeben werden.
-
Bis
dahin hat der Anmelder ein Experiment durchgeführt, das die zuvor zugeführte „optimale" Merkmalsgruppe verwendet
hat, wobei jedoch für
jeden Algorithmus nur 12 Beispiele jeder Klasse angegeben worden
sind. Die Algorithmen wurden auf die verbleibenden Elemente der
Datenbank getestet.
-
Dieses
Experiment wurde 30 mal mit verschiedenen Gruppen von 12 Beispielen
wiederholt und die Ergebnisse wurden gemittelt (die Standardabweichung
war ziemlich gering, üblicherweise
um 1,1).
-
Tabelle
VI fasst die Ergebnisse des Experiments zusammen.
-
Tabelle
VI: Ergebnisse des Lernschematas, wenn sehr wenige Trainingsbeispiele
bereitgestellt werden
-
Man
kann sehen, dass einige der Algorithmen in der Lage sind, ein sehr
vernünftiges
Leistungsniveau beizubehalten (ungefähr 85 Prozent Erfolg bei der
Verallgemeinerung). Zwischen ihnen sind Beispiele von sehr einfachen
Algorithmen wie der „1-nächste Nachbar" oder „Naive
Bayes". Diese Ergebnisse
sind ziemlich vergleichbar (und tatsächlich leicht überlegen,
was in Breazal, 2000, die oben angeführt ist, beschrieben wird. Jedoch
fand in diesem Fall das Lernen offline mit einer größeren Datenbank
von mehreren weiblichen Sprechern statt): Was wichtig ist, ist,
dass Breazal Experimente durchgeführt hat und gezeigt hat, dass
dieses Erfolgsniveau ausreichend ist, um eine interessante Interaktion
mit einem Roboterhaustier zu entwickeln. Auch zeigte Breazal, wie
diese Ergebnisse wesentlich verbessert werden konnten, wenn diese
in eine größere kognitive
Architektur, die in der Realität
arbeitet, integriert wird. Zum Beispiel könnte das Einbinden dieses Erkennungsmoduls
in ein künstliches
limbisches/emotionales System, bei dem es eine An von emotionaler
Anregung gibt (ein sehr seltener Wechsel von Glücklichkeit zu Wut in einer
halben Sekunde) einige zusätzliche
Informationen ergeben oder dem System mitteilen, dass es eine Unsicherheit über das
Ergebnis gibt. Folglich kann der Roboter zum Beispiel eine Stellung
einnehmen, die angibt, dass er nicht sicher ist über das, was vorgeht. Der Mensch
wird dann oft seinen Ausspruch mit einer noch engagierteren Intonation
wiederholen.
-
Schlussfolgerungen über die
gesamten Untersuchungen
-
Aus
dem vorangehend Beschriebenen scheint es, dass man mit der richtigen
Gruppe von Merkmalen vernünftige
Leistungen erreichen kann, wenn nur wenige Beispiele angegeben sind,
was in dem Fall von Robotern in der Realität der Fall sein kann.
-
Das
Ziel ist daher, zu versuchen, die Anzahl von Messungen zu reduzieren,
wobei ein akzeptables Leistungsniveau beibehalten wird oder möglicherweise
besser ist. Tatsächlich
sind einige Lernalgorithmen nicht sehr gut geeignet, um eine große Anzahl
von Messungen zu verarbeiten, insbesondere wenn diese nicht alle
hochrelevant sind. Einige Lernalgorithmen sind von einem konstruktiven
Typus. Sie sind interessant, soweit sie darauf abzielen, eine bestimmte
Anzahl von Regeln zu erzeugen, die für einen Entwickler zum Klassifizieren
von Emotionen lösbar
sind. Bei z. B. einer oder zwei Datenbanken gibt es einen Lernalgorithmus,
der aus der Masse der Messungen identifiziert, dass es einfach einen
Test auf vier ausgewählte
Werte vornehmen kann, wodurch akzeptable Ergebnisse erhalten werden
können.
-
Dies
ermöglicht
es, eine bestimmte Anzahl von Dingen zu erkennen, die als wichtig
erscheinen. Diese sind üblicherweise
der Wert des Signals, der mit der Intensität des Tiefpass gefilterten
Signals verbunden ist. Insbesondere gibt er an, ob der Median der
Intensität
dieses Signals größer ist
als ein vorbestimmter Wert (z. B. 25,75 dB).
-
Ein
Experiment wurde wiederholt, indem der Lernalgorithmus nur die verschiedenen
Quartile der Intensität
des Tiefpass gefilterten Signals zugeführt wurden. Die Messungen zeigen,
dass die besten Lernalgorithmen üblicherweise
80–85
Prozent Erfolgsquote erreichen (verglichen mit 90–95 Prozent
für eine
vollständige
Analyse). Jedoch wird die Berechnung vorwiegend durch die Tatsache,
dass keine Tonhöhenanalyse durchgeführt wird,
erheblich vereinfacht.
-
Auf
die Datenbank wurden Untersuchungen vorgenommen, die Werte verwenden,
die herkömmlicherweise
in der Literatur zum Vergleich mit entweder allen Werten oder mit
der Tiefpass gefilterten Signalintensität durchführen. Es scheint, dass das
Verwenden derselben Datenbank, die die Werte von bekannten Auswahlen erhalten
hat, eine Erfolgsquote von üblicherweise
70–75
Prozent hervorbringt. Dies liegt ungefähr 10 Prozent unter den Ergebnissen,
die man einfach durch Verwenden der Tiefpass gefilterten Signalintensität erhält.
-
Eine
bestimmte Anzahl von Experimenten wurde durchgeführt, um den besten Kompromiss
zwischen einer kleinen Anzahl von Messungen und den Ergebnissen
festzustellen. Dies beinhaltete das Erzeugen einer großen Anzahl
von Messgruppen, z. B. mit Hilfe eines genetischen Algorithmus und
Analysieren des Raumes. Die Schlussfolgerung war, dass man die besten
Ergebnisse aus der Kombination der Quartile der Tiefpass gefilterten
Signalintensität
plus die Quartile der Tonhöhe
plus die Quartile des Minimums des normalen (ungefilterten) Signals
erhält,
was 15 Parameter ergibt. Diese Erfolgsquoten liegen in der Region
von 90–97
Prozent, die im wesentlichen die gleichen sind wie die Erfolgsquoten,
die man durch Berücksichtigen
aller 120 Parameter gemeinsam erhält.
-
Die
nächste
Frage ist, festzustellen, ob ein Roboter relativ gut aus einer relativ
kleinen Anfangsgruppe von Beispielen verallgemeinern kann. Bis dahin
wurde ein Experiment durchgeführt,
bei dem den Algorithmen gerade 12 Beispiele pro Klasse bereitgestellt
wurden – ergibt
48 Beispiele insgesamt, um festzustellen, bis zu welchem Grad die
Ergebnisse verschieden sein würden.
Es wurde beobachtet, dass die Unterschiede zwischen den verschiedenen
Lernalgorithmen deutlicher wurden. Jedoch gibt es eine bestimmte
Anzahl von Standardalgorithmen, die immer noch eine Erfolgsquote
im Bereich von 85–90
Prozent erreichen.
-
Die
allgemeinen Ergebnisse der Untersuchung sind durch die Balken-Diagramme
der 9–13 dargestellt,
die alle die verschiedenen zitierten Lernalgorithmen hinsichtlich
der korrekten Klassifikation einer Emotion vergleichen. Für jeden
Algorithmus werden zwei Ergebnisse angegeben, was jedem der zwei
entsprechenden Sprecher der Datenbank 8 entspricht. Insbesondere:
- – zeigt 9 das
Ergebnis mit nur der Tiefpass gefilterten Signalintensität für die korrekte
Klassifikation bei der Verallgemeinerung von einem Anfangs-Sample an. Die Merkmale
sind nur die Tiefpass gefilterten Signalintensität (bei 250 Hz Grenzfrequenz);
- – zeigt 10 das
Ergebnis mit so genannten „Kismet"-Merkmalen (Kismet
entspricht einem System, das durch MIT entwickelt wurde), nämlich: Tonhöhe + Intensität + Länge der
Abschnitte;
- – zeigt 11 das
Ergebnis für
die beste Kombination der Merkmale: Tiefpass gefilterte Signalintensität + Tonhöhe + Intensität der Minima;
- – zeigt 12 das
Ergebnis, wenn sehr wenige Samples verfügbar sind für die korrekte Klassifikation
der Verallgemeinerung abhängig
von 12 Trainingsbeispielen/Klassen. Die Merkmale, die verwendet
wurden, sind: Tiefpass gefilterter Signalintensitätswert +
Tonhöhe
+ Intensität
der Minima;
und
- – zeigt 13 ein
Diagramm, das die Ergebnisse hinsichtlich der besten Bewertungen
pro Experiment für jede
der vorangehenden Diagramme zusammenfasst.
-
Praktische
Ausführung
-
14 zeigt
schematisch, wie die Ergebnisse gemäß der vorliegenden Erfindung
in einem emotionsempfindlichen System 60 implementiert
werden können.
Das Letztgenannte kann Teil eines Roboterhaustiers, eines Humanoiden,
einer Lehrvorrichtung, eines interaktiven Computers und dgl. sein. Üblicherweise
ist das System auf einem Mikrocomputer hasiert, der alle notwendige
Verarbeitungen, Datenspeicherungen, Treiben und Schnittstellenfunktionen,
die für
Emotionserkennungsprozess notwendig sind, umfasst. Alle diese Einheiten
sind als solche bekannt und in geeigneter Weise durch einen Fachmann
an die Anwendungserfordernisse anpassbar, so dass sie aus dem Diagramm
aus Gründen
der Einfachheit weggelassen worden sind.
-
Das
System 60 stellt einen Audioeingabeabschnitt zum Empfangen
von Sprachdaten dar, aus dem eine Emotion detektiert werden soll.
Die Sprachdaten können
aus zwei verschiedenen Quellen erhalten werden: einem eingebauten
Mikrofon 62, um Umgebungsgeräusche aufzunehmen, und so wie
in einer realen Situation eine Sprachäußerung von einer nahe stehenden
Person zu detektieren, für
die eine Emotionsdetektion durchgeführt wird, und eine Datenbank
von aufgezeichneten Äußerungen,
die mit dem System 60 über
einen Audioverbinder 64 verbunden werden kann. Die Datenbank
kann einfach der Datenbank 8 der 3 entsprechen
oder eine angepasste Version dieser sein. Auf diese Weise kann das
System vortrainiert, korrigiert, gekennzeichnet usw. werden. Diese
Schnittstellenmöglichkeit
ist auch nützlich,
um alle internen Klangverarbeitungsparameter einzustellen, einschließlich der
Tiefpassfilterkennlinien.
-
Die
Sprachsignale von entweder den zwei Quellen 62 und 8 werden
einer Audioverstärkung
und Vorverarbeitungseinheit 66 zugeführt, die die Signalniveaus
der Systemelektronik anpasst. Die Einheit 66 kann auch
einige Rauschreduktionsstufen umfassen, um ein Hintergrundrauschen
auf ein Minimum zu reduzieren, wenn das Mikrofon 62 in
Betrieb ist. Der Audioausgang 68 der Einheit 66 wird
entlang einem ersten und einem zweiten Pfad P1 und P2 an zwei entsprechende
erste und zweite Kanaleingänge
IC1 und IC2 einer Merkmalsextraktionseinheit 70 zugeführt.
-
Der
erste Pfad P1 enthält
einen ersten Digital-Analog-Wandler (DAC) 72 zwischen dem
Audioausgang 68 und dem ersten Kanaleingang IC1. Der Letztgenannte
empfängt
dann einfach die geeignete digitale Form des verstärkten und
vorverarbeiteten Audiosignals.
-
Der
zweite Pfad P2 enthält
einen Tiefpassfilter 74, dessen Eingang mit dem Audioausgang 68 verbunden
ist. In diesem Beispiel ist der Tiefpassfilter ähnlich dem Filter 18 der 3,
soweit er eine anpassbare Grenzfrequenz aufweist. Üblicherweise
wird die Grenzfrequenz (Fco) vorab auf einen Frequenzbereich von 0–250 Hz
zum Durchlassen der Signale eingestellt, wobei eine schnelle Dämpfung über diese
Frequenz hinaus erfolgt. Die Grenzfrequenz kann auf verschiedene
Werte mit Hilfe einer Grenzfrequenzauswahleinheit 76 eingestellt
werden. Die Letztgenannte kann manuell mit Hilfe eines Schiebers
gesteuert werden, um verschiedene Grenzfrequenzen zu erzeugen und/oder
elektronisch durch einen internen Steuerschaltkreis angepasst werden,
z. B. in einem Rückkopplungssystem,
um optimale Ergebnisse während
einer Charakterisierungsphase zu erhalten. Der übliche Bereich der möglichen
Werte für
die Grenzfrequenz Fco liegt zwischen 150 Hz und 400 Hz. Die Anpassung
der Grenzfrequenz kann notwendig sein, um das System 60 auf
verschiedene Sprecher, Sprachen, Umgebungen, Varianten von zu detektierenden
Emotionen usw. zu optimieren.
-
Der
Tiefpassfilter 74 umfasst weiterhin eine variable Dämpfungssteuerungsvorrichtung 78,
die es ermöglicht,
dass die Steigung der Frequenzantwortkurve (s. 4)
modifiziert wird, z. B. durch Ändern
der Ordnung des Filters, um einen weiteren Freiheitsgrad bei der
Optimierung der Tiefpassfilterkennlinien zu ermöglichen.
-
Jedoch
muss der Filter 74 weder variabel sein noch eine anpassbare
Steigung aufweisen, und einfache Ausführungsformen mit einem festgelegten
Tiefpassfilter, der bei einer vorbestimmten Grenzfrequenz von z.
B. 250 Hz eingestellt ist, können
vorgesehen werden.
-
Für das System
der 3 kann der Tiefpassfilter 74 mit einem
Analogschaltkreis (passiv oder aktiv) oder als digitaler Filter
implementiert werden. Im letztgenannten Fall ist der DAC 80 nicht
weiter notwendig, jedoch würde
ein ähnlicher
DAC als sein Eingang vorgesehen werden, wenn nicht der digitale
Tiefpassfilter seine eigene Digital-Analog-Wandler-Stufe umfasst.
In einer praktischen Realisierung würden der Tiefpassfilter 74 und
seine Steuereinheiten 76 und 78 üblicherweise
vollständig
digital sein, so dass die Steuerung der Filterkennlinien einschließlich der
Auswahl der Grenzfrequenz über
eine Schnittstelle einer PC-basierten Steuereinheit im Kern des
Systems 60 digital einstellbar sind.
-
Die
Tiefpass gefilterte Signalausgabe von dem Tiefpassfilter 74 (analog
in der Figur) wird einem zweiten Analog-Digital-Wandler 80 zugeführt, der
die in geeigneter Weise digitale Tiefpass gefilterte Signale an
den zweiten Signaleingang IC2 der Merkmalsextraktionseinheit 70 weiterleitet.
-
Die
Letztgenannte bildet eine erste Verbindung bei der Verarbeitungskette,
dessen Funktion darin besteht, eine Emotion, die durch zugeführte Sprachsignale übermittelt
wird, zu detektieren.
-
Der
erste Teil der Verarbeitungskette umfasst die Merkmalsextraktionseinheit 70,
die programmiert ist, um eine Auswahl von Merkmalen von dem digitalisierten
Signal zu extrahieren, von denen einige aus dem Sprachsignal nach
dem Tiefpassfiltern (bei Kanaleingang IC2) gemäß der Erfindung extrahiert
werden sollen.
-
Die
Merkmalsextraktionseinheit 70 arbeitet in einer analogen
Weise zu der Merkmalsmessstation 30 der 3.
Insbesondere extrahiert sie selektiv eine Gruppe von Merkmalen,
die aus den 120 oben beschriebenen Merkmalen entnommen sind, d.
h. die man aus den möglichen
Kombinationen erhält:
- i) die Intensität des Signals nach dem Tiefpassfiltern
(abgeleitet aus dem Signal an Kanal IC2),
- ii) die Intensität
des Signals ohne Tiefpassfiltern (abgeleitet von dem Signal an Kanal
IC1), und
- iii) die Tonhöhe
des Signals ohne das Tiefpassfiltern (abgeleitet von dem Signal
an dem Kanal IC1).
-
Eine
10 Hz Glättung
der obigen Signale wird durchgeführt.
-
Aus
diesen gespeicherten 10 Hz geglätteten
Signalen werden jede der drei oben beschriebenen zeitlich variierenden
Signale i)–iii)
berechnet.
-
Jedes
so berechnete Signal i)–iii)
wird in Intervallen zu z. B. 0,01 Sekunden digital abgetastet. Jedes Abtasten
ergibt einen absoluten Momentanwert der Intensität (Signale i) und ii)) oder
der Tonhöhe
(Signal iii)). Für
jedes abgetastete Signal erhält
man somit eine Abfolge von abgetasteten Werten, üblicherweise einige hundert,
die sich aus einem Satz von mehreren Sekunden Länge ergeben. Die so erhaltenen
Wertefolgen werden in zeitlicher Reihenfolge gespeichert, beginnend
mit dem Wert des frühesten
Teils des Signals, so dass die Abfolge der Werte die zeitliche Variation
des betrachteten Signals i), ii) oder iii) ausdrückt.
-
Für jede aus
diesen drei Signalen erhaltene Abfolge: Intensität nach dem Tiefpassfiltern,
Intensität ohne
das Tiefpassfiltern und die Tonhöhe
ohne Tiefpassfiltern kann die Merkmalsextraktionseinheit 70 die
vier Reihen von Werten berechnen, die oben in Verbindung mit der
Merkmalsmessstation 30 der 3 beschrieben
worden sind, das sind:
- 1) Die Reihe der lokalen
Minima, indem die Werte in der Abfolge bestimmt werden, die einem
Minimum entsprechen und indem eine Reihe, die aus gerade diesen
Minimumwerten der Abfolge gebildet ist, aufgebaut wird. Die Reihe
wird in zeitlicher Reihenfolge gespeichert, beginnend mit dem frühesten Minimum.
Ein Minimum in der Abfolge von Werten wird als ein Element der Abfolge
identifiziert, dessen Wert kleiner ist als der seines unmittelbar
vorangehenden und unmittelbar nachfolgenden Nachbars in der Abfolge.
- 2) Die Reihe von lokalen Maxima, indem die Werte in der Abfolge,
die einem Maximum entsprechen, bestimmt werden und eine Reihe, die
aus gerade diesen Maximumwerten der Abfolge gebildet wird, aufgebaut
wird. Die Reihe wird in zeitlicher Reihenfolge gespeichert, beginnend
von dem frühesten
Maximum. Ein Maximum in der Abfolge von Werten wird als ein Element
in der Abfolge identifiziert, dessen Wert größer ist als der seines unmittelbar
vorangehenden und unmittelbar nachfolgenden Nachbars in der Abfolge.
- 3) Die Reihe von Zeitdauern (Zeitintervallen) zwischen lokalen
(benachbarten) Extrema – Minima
und Maxima – (was
rhythmische Aspekte des Signals moduliert), indem in der Abfolge
die Werte, die einem Minimum oder einem Maximum entsprechen, identifiziert
werden. Dies wird durch Vergleichen jedes Werts mit seinem unmittelbar
vorangehenden Nachbarn wie bei den obigen Reihen i) und ii) erreicht.
Dann werden die zeitlichen Positionen der identifizierten Extrema
analysiert, um die Zeitintervalle, die aufeinander folgende Extrema
voneinander trennen, zu bestimmen. Diese Zeitintervalle werden in
eine Reihe gebracht, beginnend mit dem Intervall, das früheste und
nächst
früheste
Extrema voneinander trennt, um die Reihe von Zeitintervallen zu
erhalten.
- 4) Die Reihe selbst, durch Bilden einer Reihe aus allen aufeinander
folgend abgetasteten Werten der Abfolge, beginnend von dem Beginn
des abgetasteten Sprachsignals.
-
Auf
die resultierenden 3×4
(= 12) möglichen
Reihen kann die Merkmalsextraktionseinheit die folgenden zehn statistischen
Operationen durchführen,
um entsprechende Merkmale zu erzeugen:
- 1) der
Mittelwert,
- 2) das Maximum (d. h. der insgesamt höchste Wert),
- 3) das Minimum (d. h. der insgesamt niedrigste Wert),
- 4) die Differenz zwischen dem Maximum und dem Minimum,
- 5) die Varianz,
- 6) der Median,
- 7) das erste Quartil,
- 8) das dritte Quartil,
- 9) der Interquartilbereich, der als Differenz zwischen dem dritten
und dem ersten Quartil definiert ist,
- 10) der Mittelwert des absoluten Werts der lokalen Ableitungen.
-
Selbstverständlich umfassen
einige der oben genannten statistischen Merkmale eine Umsortierung der
Werte in der Reihe von einer sich zeitlich entwickelten Reihe zu
einer Reihe, die durch ansteigende Werte sortiert ist, insbesondere,
um das erste Quartil, den Median und das dritte Quartil zu bestimmen.
-
Alle
Daten werten anfänglich
normalisiert, bevor diese statistischen Merkmale berechnet werden.
-
Die
Wahl, welche dieser 120 Merkmale extrahiert werden sollen, hängt von
den zu verwendenden Algorithmen ab und ist programmierbar. In der
Ausführungsform
kann die Merkmalsextraktionseinheit 70 programmiert werden,
um jede Anzahl dieser Merkmale gemäß den Anforderungen zu extrahieren.
Mindestens eines der Merkmale wird von einer Intensität eines
Tiefpass gefilterten Sprachsignals abgeleitet, auf das eine Emotionserkennung
durchgeführt
werden soll.
-
Als
Beispiel kann die Merkmalsextraktionseinheit 70 programmiert
werden, um mindestens eines der folgenden fünf statistischen Merkmale aus
den zehn oben aufgeführten
zu extrahieren:
- – das erste Quartil,
- – der
Median,
- – das
dritte Quartil,
- – das
Maximum, und
- – das
Minimum
-
Diese
Extraktion kann für
eines oder eine Kombination aller drei Signale i), ii) und iii),
die oben aufgeführt
sind, durchgeführt
werden, woraus sich bis zu 15 Merkmale ergeben, die durch die Einheit 70 für jedes Sprachsignal,
für das
eine Emotion detektiert werden soll, extrahiert werden können, wobei
mindestens eines der Merkmale aus einem Tiefpass gefilterten Intensitätssignal
extrahiert wird.
-
Auch
kann die Extraktionseinheit 70 zusätzlich programmiert werden,
um eines der oben aufgelisteten Merkmale 1 bis 10 aus dem Tonhöhensignal,
das von dem Sprachsignal nach dem Tiefpassfiltern extrahiert wurde,
zu extrahieren. In diesem Fall kann man für die so erhaltene Tiefpass
gefilterte Tonhöhe
die gleichen vier Reihen von oben aufgeführten Werten 1 bis 4 erhalten,
die jeweils den 10 oben aufgeführten
statistischen Merkmalen 1 bis 10 unterworfen werden können. Somit
kann die Extraktionseinheit weiter programmiert werden, um jede
Anzahl von statistischen Merkmalen bis zu 4×10 = 40 aus dem Tonhöhensignal
zu extrahieren, das nach dem Tiefpassfiltern durch den Filter 74 abgeleitet
wurde.
-
Die
Merkmalsextraktionseinheit 70 kann auch programmiert werden,
um eine reduzierte Anzahl von statistischen Merkmalen zu extrahieren,
die z. B. mindestens einer der ersten sechs Merkmale, die in der
obigen Tabelle III aufgeführt
wurden, entsprechen, das sind:
- 1: der Medianwert
der abgetasteten Tiefpass gefilterten Signalintensitätswerte,
- 2: der Mittelwert der Tiefpass gefilterten Signalintensitätswerte,
- 3: drittes Quartilwert der Reihe der abgetasteten Tiefpass gefilterten
Signalintensitätswerte,
- 4: der erste Quartilwert der Reihe der abgetasteten Tiefpass
gefilterten Signalintensitätswerte,
- 5: der Maximalwert der Reihe der abgetasteten Tiefpass gefilterten
Signalintensitätswerte,
- 6: der Maximalwert der Reihe der abgetasteten Tiefpass gefilterten
Signalintensitätswerte.
-
Schließlich kann
jedes der unter i) –iii)
aufgeführten
Signale und, wenn der Fall auftritt, das Tiefpass gefilterte Tonhöhensignal
individuell geglättet
werden, z. B. durch ein 10 Hz Glätten
(oder durch einen anderen Wert) oder nicht geglättet werden.
-
Die
extrahierten Merkmale werden zeitweilig in einem Datenprotokollierer 82 gespeichert,
auf das durch andere funktionale Einheiten zugegriffen werden kann.
-
Das
emotionsempfindliche System 60 ist aufgebaut, um selektiv
in einem von zwei möglichen
Modi betrieben zu werden, wobei diese einem Offline-Emotionserkennungs-Trainingsmodus
und einem Online- Emotionserkennungs-Trainingsmodus entsprechen.
-
Im
Offline-Trainingsmodus wird das Training zum Erkennen von Emotionen
außerhalb
der Vorrichtung ausgeführt,
z. B. mit Hilfe des Bewertungssystems, das mit Bezug auf 3 beschrieben
worden ist. In diesem Fall liefert die Programmierungseinheit PU
der 3 einen vollständigen
Emotionserkennungsalgorithmus für den
späteren
Gebrauch. Der Algorithmus kann einem Typ entsprechen, der z. B.
in Beispiel 1 ausgeführt
wurde, oder einem davon verschiedenen Algorithmus. Die Emotionserkennung
kann bezüglich
ihrer Parameter und ihrer Programmierung (geschlossener Algorithmus)
festgelegt sein oder kann bis zu einem bestimmten Grad anpassbar
sein, um seine Parameter und seine Programmierung auf Basis der
Rückantwort
des Benutzers zu aktualisieren, um Fehler zu korrigieren oder die
Emotionserkennung zu begleiten.
-
Bei
dem Online-Trainingsmodus gibt es keinen anfänglich eingestellten Emotionserkennungsalgorithmus.
Vielmehr ist ein Lernalgorithmus vorgesehen, der die verschiedenen
Merkmale, die von der Merkmalsextraktionseinheit 70 extrahiert
werden, und eine Benutzerrückkopplung
oder Benutzerangaben der Emotionen, die detektiert werden sollen,
analysiert. Von dieser Eingabe entwickelt der Lernalgorithmus einen
bestimmten Online-Emotionserkennungsalgorithmus, der kontinuierlich
modifiziert, aktualisiert und mit einer zunehmenden Zahl von Benutzereingaben
und Rückkopplungen
verbessert werden kann.
-
In 14 weist
jeder dieser zwei Modi ihren Pfad von funktionalen Einheiten auf:
OFF-L und ON-L jeweils für
den Offline- und Online-Modus.
-
Für den Offline-Modus
ist eine Offline-Emotionserkennungsalgorithmuseinheit 84 wie
oben beschrieben vorgesehen. Letztgenannte führt die durch die Einheit 70 extrahierten
Merkmale, die in dem Datenprotokollierer 82 vorliegen,
gemäß ihrer
Parametrisierung und Programmierung zu und bestimmt aus diesen extrahierten
Merkmalen eine Emotion gemäß seiner
eigenen vorbestimmten Einstellungen. In diesem Modus werden die
Sprachsignale normalerweise nur von dem Mikrofon 62 empfangen.
-
Für den Online-Trainingsmodus
wird zuerst eine Datenbank 86 erstellt, die extrahierte
Merkmale enthält,
aus der verschiedene Auswahlen durch eine Lernalgorithmuseinheit 88 erkannt
werden können.
Bis dahin ist die Datenbank 86 mit dem Datenprotokollierer 82 verbunden,
um so alle extrahierten Merkmale zu akkumulieren und so eine entsprechende
Sammlung von extrahierten Merkmalen aufzubauen. Eine Rückkopplung (Schleife
FL1) von der Lernalgorithmuseinheit 86 zur Merkmalsextraktionseinheit 70 ermöglicht es
der Letztgenannten, angewiesen zu werden, neue Merkmale zu ändern oder
neue Merkmale aus den Möglichkeiten auszuwählen, um
neue Notwendigkeiten, die sich aus dem am besten geeigneten Emotionserkennungsalgorithmus
ableiten, zu erfüllen.
Die Lernalgorithmuseinheit 88 kann ein Programm umfassen,
das es einem Benutzer ermöglicht,
Sprachnachrichten mit verschiedenen Emotionen einzugeben oder diese
mit einer Datenbank, wie z. B. Datenbank 8, zu koppeln,
um Daten aus der Sprachdatenbank zu empfangen.
-
Wenn
die Lernalgorithmuseinheit 86 einmal den erforderlichen
Online-Emotionserkennungsalgorithmus
entwickelt hat, wird dieser in eine Online-Emotionserkennungsalgorithmuseinheit 90 geladen.
Diese führt die
gleiche Emotionserkennung aus wie die der Einheit 84, erzeugt
diese aber intern und spezifisch zugeschnitten auf einen bestimmten
Sprecher, wie z. B. den Benutzer.
-
Die
Typen von Emotionen, die entweder von der Emotionsdetektionseinheit 84 oder
von der Emotionsdetektionseinheit 90 detektiert werden,
können
den zuvor Diskutierten entsprechen: Ruhe, Traurigkeit, Glücklichkeit,
Wut. Andere Emotionen können
selbstverständlich
auch vorgesehen werden.
-
Die
Auswahl der Arbeitsweise in dem Offline- oder Online-Modus wird
durch eine Auswahleinheit 92 festgelegt, die auswählt, von
welchem Emotionsdetektionsalgorithmus 84 oder 90 die
detektierten Emotionen entnommen werden sollen. Die Auswahl entspricht
einem externen Benutzereingabesignal 94.
-
Üblicherweise
sind die folgenden Varianten möglich:
- – Das
System 60 ist nur mit einem Offline-Emotionserkennungsalgorithmus 84 versehen.
Dieser kann dann vollständig
festgelegt oder bis zu einem bestimmten Grad durch eine Rückkopplungsantwort
einstellbar sein, oder
- – das
System ist nur mit einem Online-Emotionsalgorithmussystem versehen,
das aus dem Lernsystem und dem Online-Emotionserkennungsalgorithmus,
der durch dieses erzeugt wird (Einheiten 86 bis 90)
zusammengesetzt ist.
-
Die
Programmierungseinheit PU der 3 dient
dazu, die erforderliche Information und den Code für die verschiedenen
funktionalen Einheiten bereitzustellen. Dies wird durch eine Programmierschnittstelle
PI erreicht. Insbesondere dienen die Programmiereinheit PU und ihre
Schnittstelle PI dazu, die Merkmalsextraktionseinheit 70 zu
programmieren, die Offline-Emotionserkennungsalgorithmen (Einheit 84)
zu laden und/oder den Lernalgorithmus (Einheit 88) sowie
die Merkmale in die Datenbank 86 zu laden, um zusätzliche
Sample oder komplementäre
Daten bereitzustellen.
-
Die
Ausgabe aus den Offline- und Online-Emotionserkennungsalgorithmuseinheiten 84 und 90 wird einer
Eingangseinheit 94 für
eine detektierte Emotion zugeführt,
wo die erkannte Emotion bestätigt
wird. Von dieser Einheit 94 wird die erkannte Emotion an
eine Emotionsantworteinheit 96 zugeführt, um alle die beabsichtigten
emotionalen Antworten zu steuern. Zum Beispiel kann die emotionale
Antworteinheit 96 im Falle eines Roboterhaustiers den Betrieb
von verschiedenen elektromechanischen Aktuatoren, Lichtern und Audioausgangsvorrichtungen
steuern, um eine geeignete Antwort zu simulieren.
-
Eine
Antwort umfasst das Abgeben eines Feedbacks an einen menschlichen
Benutzer 96 oder eine andere steuernde Person oder Vorrichtung,
um die detektierte Information anzugeben. Dies wird durch einen Indikator 100 für eine detektierte
Emotion erreicht, die ein visuelles, hörbares, elektrisches oder mechanisches Signal,
das die detektierte Emotion angibt, abgibt. Dies macht es möglich, zu überprüfen, ob
die Identifikation richtig ist oder nicht, und, wenn erforderlich,
korrektive Maßnahmen
vorzunehmen.
-
Insbesondere
ermöglicht
es dem Benutzer 98, eine Feedback-Antwort in eine Feedback-Antworteinheit 102 auszudrücken, die
eine geeignete Feedback-Nachricht an die verschiedenen betroffenen
Einheiten erzeugt: Offline-Emotionserkennungsalgorithmuseinheit 84 (wenn
diese eine entsprechende Flexibilität zulässt), Lernalgorithmuseinheit 88 und
die Online-Emotionserkennungsalgorithmuseinheit 90.
-
Aus
der vorangehenden Beschreibung wird deutlich, dass die Erfindung
mit vielen verschiedenen Kombinationen von Merkmalen, die aus dem
Signal extrahiert werden, implementiert werden kann, wobei mindestens
eines der Merkmale aus dem Signal nach dem Tiefpassfiltern extrahiert
wird.
-
Die
Auswahl des Algorithmus für
die Emotionserkennung auf Basis dieser Merkmale kann auf empirischer
Basis vorgenommen werden. Die Algorithmen, die in dieser Beschreibung
aufgeführt
werden, stellen lediglich einige von vielen Algorithmen dar, die
für diesen
Zweck geeignet sind. Es kann auch vorgesehen sein, die Erfindung
mit anderen Algorithmen, sowohl für das Lernen als auch für die Emotionserkennung
zu implementieren. Der Bereich der Erfindung wird lediglich durch
die beigefügten
Ansprüche
beschränkt.