-
Die
Erfindung bezieht sich auf ein Verfahren zum Erfassen von Emotionen
und insbesondere auf ein Verfahren zum Erfassen von Emotionen aus
einem Spracheingang durch das Einbeziehen von sogenannten Unterraum-Spezialisten.
-
In
vielen Anwendungen ist es erwünscht,
den momentanen emotionalen Zustand eines menschlichen Sprechers,
z. B. eines Anwenders einer Ausrüstung
oder dergleichen, zu erfassen. Viele Verfahren, um den emotionalen
Zustand eines Menschen zu erfassen, sind beschrieben worden. Viele
dieser bekannten Verfahren verwenden und evaluieren verschiedene
Quellen der Merkmale, visuelle Quellen, akustische Quellen und andere
physiologische Quellen, z. B. die Spannung, die Feuchtigkeit und
die Temperatur der Haut, den Blutdruck, die Rate des Herzschlags
und/oder dergleichen.
-
In
dem Fall des akustischen Spracheingangs ist jedoch die Erfassung
der Emotionen ein sehr schwieriges Problem, weil die Varianz zwischen
den Sprechern der emotionalen Sprache sehr hoch ist. Deshalb könnte die
Evaluierung einer einzelnen Merkmalsklasse des Spracheingangs nicht
ausreichend sein, um einen momentanen emotionalen Zustand eines
menschlichen Sprechers in einer sicheren Weise zu erfassen.
-
"Describing the emotional
states expressed in speech" von
Roddy Cowie, ISCA Workshop on Speech and Emotion, Belfast 2000,
S. 1 bis 8, betrifft die Beschreibung emotionaler Zustände, die
in Sprache ausgedrückt
sind. Um den emotionalen Zustand zu beschreiben, wird vorgeschlagen,
einen Aktivierungs-Evaluierungs-Raum
zu verwenden. Das zitierte Dokument lehrt jedoch nicht, wie dieser
Aktivierungs-Evaluierungs-Raum verwendet werden kann, um Emotionen
aus akustischer Sprache in einer effizienten Weise zu erfassen und
folglich eine niedrige Fehlerrate für die Erfassung von Emotionen
zu erhalten.
-
Ferner
ist ein Überblick über Sprache
und Emotion in Cowie u. a., "Emotion
Recognition in Human-Computer Interaction", IEEE Signal Processing Maga zine, Jan.
2001, S. 32–80,
dargestellt.
-
Es
ist eine Aufgabe der Erfindung, ein Verfahren zum Erfassen von Emotionen
aus akustischer Sprache zu schaffen, bei dem der Fehler einer derartigen
Erfassung besonders niedrig ist und die Erfassung selbst genauer
und verfeinerter ist.
-
Diese
Aufgabe wird durch ein Verfahren zum Erfassen von Emotionen mit
den kennzeichnenden Merkmalen des Anspruchs 1 gelöst. Die
Aufgabe wird außerdem
sowohl durch ein System, um das Verfahren auszuführen, gemäß den Merkmalen des Anspruchs
7 als auch durch ein Computerprogrammprodukt gemäß den Merkmalen des Anspruchs
8 gelöst.
Bevorzugte Ausführungsformen
des Verfahrens der Erfindung zum Erfassen von Emotionen liegen innerhalb
des Umfangs der entsprechenden abhängigen Unteransprüche.
-
Die
Erfindung basiert auf der Feststellung und der Annahme, dass die
verschiedenen menschlichen Emotionen und Affekte in einem mehrdimensionalen
Raum – insbesondere
in zwei Dimensionen – dargestellt
werden können
und dass jede oder beide Dimensionen für die Klassifizierung und Erkennung relevant
sind.
-
Gemäß der Erfindung
werden beim Verfahren zum Erfassen von Emotionen aus einem Spracheingang – insbesondere
von wenigstens einem Sprecher – wenigstens
eine erste Merkmalsklasse und eine zweite Merkmalsklasse von Merkmalen
wenigstens teilweise aus einem gegebenen Spracheingang evaluiert,
abgeleitet und/oder extrahiert. Aus den Merkmalen und/oder den Parametern
hiervon werden ein momentaner emotionaler Zustand eines momentanen
Sprechers und/oder Parameter hiervon abgeleitet. Die ersten und
zweiten Merkmalsklassen werden mit insbesondere unterschiedlichen
Dimensionen einer zugrundeliegenden emotionalen Mannigfaltigkeit
oder eines zugrundeliegenden emotionalen Raums und/oder Unterräumen hiervon
identifiziert und/oder insbesondere unterschiedlichen Dimensionen
einer zugrundeliegenden emotionalen Mannigfaltigkeit oder eines
zugrundeliegenden emotionalen Raums und/oder Unterräumen hiervon
zugeordnet, insbesondere bei Aktivierung oder Erregung bzw. Evaluierung
oder Freude.
-
Es
ist deshalb eine Schlüsselidee
der Erfindung, die unterschiedlichen ersten und zweiten Merkmalsklassen
mit den Dimensionen einer gegebenen emotionalen Mannigfaltigkeit,
eines gegebenen emotionalen Raums und/oder Unterräumen hiervon
zu identifizieren und/oder den Dimensionen einer gegebenen emotionalen
Mannigfaltigkeit, eines gegebenen emotionalen Raums und/oder Unterräumen hiervon
zuzuordnen. Im Gegensatz zu den Verfahren des Standes der Technik,
um Emotionen aus Sprache zu erfassen, umfasst die Erfindung nicht
nur mehrere Merkmalsklassen, sondern sie identifiziert außerdem diese
Merkmalsklassen mit den Dimensionen der emotionalen Mannigfaltigkeit
oder des emotionalen Raums und bildet deshalb diese Merkmalsklassen
auf die Dimensionen der emotionalen Mannigfaltigkeit oder des emotionalen
Raums ab, um eine Verfeinerung der Beschreibung der Merkmale und
deshalb eine Verfeinerung des Erfassungsprozesses der emotionalen
Zustände
des Sprechers zu liefern. Dies kann anhand der verschiedenen Grade der
Komplexität
für jede
Dimension ausgeführt
werden.
-
Gemäß einer
bevorzugten Ausführungsform der
Erfindung wird vorgeschlagen, für
jede Merkmalsklasse, für
jede Dimension/jeden Unterraum der emotionalen Mannigfaltigkeit
und/oder für
Gruppen hiervon in jedem Fall einen separaten und/oder unterschiedlichen
Spezialisten – insbesondere
Unterraum-Spezialisten oder dergleichen – oder ein spezialisiertes
Klassifizierersystem zu verwenden und/oder zu konstruieren. Jedes
der spezialisierten Klassifizierersysteme ist insbesondere beschaffen, um
Merkmale im Prinzip aus einer zugewiesen Merkmalsklasse und/oder
aus einer zugewiesen Dimension oder einem zugewiesen Unterraum der
Emotionen zu erhalten, zu erzeugen, zu evaluieren und/oder zu klassifizieren.
Im Allgemeinen gibt es Merkmale, die nur für einen einzelnen Klassifizierer
notwendig sind. Außerdem
könnte
es Merkmale geben, die durch mehrere oder alle Klassifizierer verwendet
werden. Hier wird eine Merkmalsklasse für einen gegebenen Klassifizierer
als die vollständige
Menge der Merkmale bezeichnet, die für den bestimmten Klassifizierer
notwendig ist.
-
In
einer weiteren vorteilhaften Ausführungsform des Verfahrens der
Erfindung zum Erfassen von Emotionen aus Sprache werden die unterschiedlichen
spezialisierten Klassifizierersysteme auf unterschiedliche Merkmalsklassen,
die bereits aus dem Spracheingang extrahiert worden sind, und/oder
auf den Spracheingang direkt angewendet. Ferner werden die dadurch
evaluierten, abgeleiteten und/oder extrahierten Merkmale, Emotionen
und/oder Parameter hiervon, insbesondere aus verschiedenen Merkmals-Unterräumen, gesammelt und/oder
gespeichert, insbesondere um eine endgültige Klassifizierung durch
die Kombination der Ergebnisse zu erhalten.
-
Es
ist bevorzugt, dass die Merkmale, Emotionen und/oder Parameter hiervon,
die insbesondere aus verschiedenen Merkmals-Unterräumen evaluiert,
abgeleitet und/oder extrahiert worden sind, kombiniert werden, insbesondere
um den momentanen emotionalen Zustand des momentanen Anwenders und/oder
Parameter hiervon zu beschreiben.
-
In
einer weiteren bevorzugten Ausführungsform
des Verfahrens der Erfindung zum Erfassen von Emotionen aus Sprache
werden unterschiedliche spezialisierte Klassifizierersysteme und/oder
die Merkmale oder Ausgänge
hiervon kombiniert, vereinigt und/oder verschmolzen, insbesondere
um ein globales Klassifizierersystem zu bilden – im Fall nicht orthogonaler
Unterräume
oder Klassifizierersysteme – insbesondere
mittels eines empirischen Gewichtungsalgorithmus oder dergleichen.
Dies wird ausgeführt,
um mit dem häufigen
menschlichen Sprechverhalten und der Abhängigkeit davon vom zugrundeliegenden
emotionalen Zustand umzugehen und das häufige menschliche Sprechverhalten
und die Abhängigkeit
davon vom zugrundeliegenden emotionalen Zustand zu berücksichtigen.
-
Es
ist von Vorteil, eine Klasse von Prosodie-Merkmalen wenigstens als
ein Teil der ersten Merkmalsklasse zu verwenden, die insbesondere wenigstens
teilweise mit einer Aktivierungs- und/oder Erregungsdimension der
Emotionen oder der emotionalen Mannigfaltigkeit identifiziert wird.
-
Alternativ
oder zusätzlich
ist es von weiterem Vorteil, eine Klasse der Sprachund/oder Stimmqualitätsmerkmale
wenigstens als ein Teil der zweiten Merkmalsklasse zu verwenden,
die insbesondere wenigstens teilweise mit einer Freude- und/oder
Evaluierungsdimension der Emotionen oder der emotionalen Mannigfaltigkeit
identifiziert wird.
-
Es
ist ferner bevorzugt, ein – insbesondere eindimensionales – Klassifizierersystem
mit einer niedrigen Komplexität
zu verwenden, insbesondere als ein Klassifizierersystem für Prosodie-Merkmale oder
für eine
Prosodie-Merkmalsklasse.
-
Alternativ
oder zusätzlich
ist es bevorzugt, ein – insbesondere
eindimensiona les – Klassifizierersystem
mit hoher Komplexität
zu verwenden, insbesondere als ein Klassifizierersystem für Sprach- und/oder
Stimmqualitätsmerkmale
oder für
eine Stimm- und/oder Sprachqualitätsmerkmalsklasse.
-
Eindimensionale
oder 1dimensionale Klassifizierersysteme werden die hier als Klassifizierersysteme
bezeichnet, die ihre Ausgänge
nicht vermischen.
-
Insbesondere
das Klassifizierersystem mit hoher Komplexität kann mehrere einzelne Klassifizierer
enthalten, insbesondere durch Implementierung der Sprecherabhängigkeiten.
Diese Sprecherabhängigkeiten
können
Alter, Geschlecht und/oder dergleichen enthalten.
-
Gemäß einem
weiteren Aspekt der Erfindung können
die verschiedenen Klassifizierer in Abhängigkeit von den Merkmalsunterräumen, die
sie als einen Eingang haben, als einen Ausgang nicht nur geeignete
Emotionen liefern, sondern auch einen Grad von Emotionen, insbesondere
einen Grad der Freude und/oder Aktivierung, die anschließend kombiniert
werden können,
um einen momentanen emotionalen Zustand des Sprechers zu erhalten.
-
Als
Prosodie-Merkmale können
die Merkmale der Tonhöhe,
des Tonhöhenbereichs,
der Intonationsart, der Lautstärke,
der Sprechgeschwindigkeit, der Einzellautdauer, der Sprachelementdauer und/oder
dergleichen verwendet werden.
-
Als
die Sprach- oder Stimmqualitätsmerkmale
können
Lautbildungstyp, Artikulationsweise, Klangfarbenmerkmale der Sprache,
Spektralneigung, Amplitudendifferenz zwischen Harmonischen und Formanten,
Formantenbandbreite, Zittern, Merkmale bezüglich des Verhältnisses
der Harmonischen zum Rauschen und/oder dergleichen verwendet werden.
-
Es
ist ein weiterer Aspekt der Erfindung, ein System, eine Vorrichtung,
eine Einrichtung und/oder dergleichen zu schaffen, um Emotionen
aus einer Eingangssprache zu erfassen, das bzw. die in jedem Fall
das Verfahren der Erfindung zum Erfassen von Emotionen aus einem
Spracheingang und/oder seine Schritte ausführen und/oder verwirklichen
kann.
-
Gemäß einem
weiteren Aspekt der Erfindung wird ein Computerprogrammpro dukt geschaffen,
das Computerprogrammittel enthält,
die so beschaffen sind, um das Verfahren der Erfindung zum Erfassen
von Emotionen aus einem Spracheingang und/oder seine Schritte auszuführen und/oder
zu verwirklichen, wenn es auf einem Computer, einem digitalen Signalverarbeitungsmittel
und/oder dergleichen ausgeführt
wird.
-
Weiterer
Aspekte der Erfindung werden aus den folgenden Bemerkungen offensichtlich:
Es
ist eine Grundidee der Erfindung, die emotionalen Dimensionen zu
verwenden, um einen Klassifizierer für die automatische Erkennung
oder Erfassung von Emotionen zu konstruieren. Die verschiedenen menschlichen
Emotionen und Affekte können
in einem mehrdimensionalen Raum oder einer mehrdimensionalen Mannigfaltigkeit
dargestellt werden, insbesondere in zwei Dimensionen. Eine Dimension
bezieht sich z. B. auf die Aktivierung oder Erregung. Die andere
Dimension bezieht sich auf die Evaluierung oder Freude. Die Emotionen,
die im selben Bereich der emotionalen Mannigfaltigkeit oder des
emotionalen Raumes angeordnet sind, besitzen ähnliche Merkmale hinsichtlich
der Akustik, wobei sie schwieriger zu klassifizieren sind. Deshalb
kann die Anwendung von Unterraum-Spezialisten und einer Technik hierfür, die auf
der Zuordnung der emotionalen Dimensionen und des Merkmalsraumes
basiert, bessere Erkennungsraten liefern und die Erfassungsfehler verringern.
-
Übliche und
bekannte Schemata für
die Klassifizierung von Emotionen verwenden verschiedene Klassifizierer,
wie z. B. neuronale Netze, die lernende Vektorquantisierung, die
lineare Diskriminantenanalyse, CART-Regressionsbäume, nächster Nachbar, K-nächster Nachbar
und/oder dergleichen.
-
Die
Erkennung von Emotionen aus einem Sprachsignal ist keine leichte
Aufgabe. Bis jetzt machen die meisten der bekannten Klassifizierer
von den prosodischen Merkmalen oder Prosodie-Merkmalen gebraucht.
Diese Prosodie-Merkmale sind leicht zu handhaben, sie liefern aber
nur Informationen über
eine sogenannte Aktivierungs- oder Erregungsdimension der Emotionen.
-
Es
ist ein Aspekt der Erfindung, wenigstens eine zweite Dimension des
emotionalen Raumes zu berücksichtigen.
Es wird insbesondere vorgeschlagen, die Freude- oder Evaluierungsdimension
des emotionalen Raumes oder der emoti onalen Mannigfaltigkeit zu
evaluieren. Eine derartige Dimension wird durch die Qualitätsmerkmale
der Sprache oder der Stimme außerordentlich
beeinflusst, d.h. von den Hörmerkmalen,
die sich aus den Variationen im Quellsignal und den Eigenschaften
des Stimmenapparats ergeben. Diese Qualitätsmerkmale sind sehr sprecherabhängig.
-
Eines
der Hauptprobleme, wenn ein Klassifizierer für die Erkennung von Emotionen
oder die Erfassung von Emotionen aus der Sprache konstruiert wird,
ist die Tatsache, dass dieselbe Emotion abhängig vom Sprecher durch verschiedene
Merkmale ausgedrückt
oder auf verschiedene Merkmale abgebildet werden kann. Einige Sprecher
machen in nur einer der möglichen
emotionalen Dimensionen im emotionalen Raum Unterschiede. Für Sprecher,
die von mehreren derartigen emotionalen Dimensionen Gebrauch machen,
ist es schwierig, einen gemeinsamen Bereich der Emotionen zu definieren.
-
Vorausgesetzt,
dass mehrere Dimensionen des emotionalen Raumes – im obenerwähnten Fall werden
zwei Dimensionen verwendet – für eine genaue
emotionale Klassifizierung relevant sind und dass sich diese Emotionen
auf verschiedene Merkmale der Sprache mit einem verschiedenen Grad
der Komplexität
beziehen, ist es ein Vorschlag gemäß der Erfindung, beide Konzepte
zu verwenden, um eine optimale Konstruktion für den Klassifizierer zu erhalten.
-
Es
ist eine Idee hinter der Erfindung, von mehreren emotionalen Dimensionen
Gebrauch zu machen, um einen Klassifizierer für die automatische Erkennung
und Erfassung von Emotionen zu konstruieren. Diese Idee ist mit
einer weiteren Idee kombiniert, um eine Technik eines Unterraum-Spezialisten
anhand der Zuordnung der emotionalen Dimensionen und des Merkmalsraumes
anzuwenden. Im Grunde würde
es gemäß einem
Aspekt der Erfindung ausreichend sein, die Anwendung verschiedener Klassifizierer
für jeden
der Merkmals-Unterräume einzubeziehen,
die den Prosodie-Merkmalen und den Qualitätsmerkmalen zugewiesen sind,
und die Ergebnisse von den verschiedenen Klassifizierern zu kombinieren.
-
Es
ist ein weiterer Aspekt der Erfindung, diese Schlüsselidee
durch einen der folgenden zwei Zugänge oder durch eine Kombination
von ihnen zu verbessern.
- (a) Weil sich beide
Dimensionen des emotionalen Raumes auf der Grundlage eines zweidimensionalen
Konzepts auf verschiedene Merkmale der Sprache mit einem anderen
Grad der Komplexität beziehen,
ist es sinnvoll, das Problem zu teilen und zwei Klassifizierungstechniken
zu konstruieren. Jede dieser Klassifizierungstechniken betrachtet
einen Unterraum der emotionalen Mannigfaltigkeit oder des emotionalen
Unterraums und betrachtet deshalb verschiedene Merkmale. Für den problematischsten
Fall, d. h. für
den Unterraum der Qualitätsmerkmale,
kann es vorgesehen sein, mehr als einen Klassifizierer für diesen Unterraum
zu verwenden, wobei sogar irgendeine Art der Sprecherabhängigkeit,
wie z. B. Alter, Geschlecht und dergleichen, einbezogen werden kann.
Ein endgültiger
Klassifizierungsalgorithmus wird dann anschließend implementiert, um die
Ergebnisse der Unterraum-Spezialisten zu verschmelzen.
- (b) Andererseits ist es ziemlich leicht, für eine gegebene Emotion den
Grad der Freude und Aktivierung zu bestimmen. Deshalb ist es anhand
dieser Kenntnis möglich,
die Klassifizierung einer derartigen Emotion mit einer Menge von
Kandidaten zu folgern. Für
diesen Zweck ist es notwendig, entweder eine Trainingsdatenbank,
die mit verschiedenen Niveaus der Aktivierung und der Freude geeignet
bezeichnet ist, oder eine Datenbank, die mit Emotionen bezeichnet
ist, zu besitzen und dann jede dieser Emotionen festen Koordinaten
in beiden Dimensionen, der Aktivierung und der Freude, zuzuordnen.
Die Klassifizierung wird hinsichtlich derartiger Niveaus ausgeführt, wobei
es eine Abbildung von bestimmten Bereichen des emotionalen Raumes
auf verschiedene Emotionen gibt.
-
Im
Folgenden werden weitere vorteilhafte Aspekte der Erfindung unter
Bezugnahme auf die beigefügten
Figuren beschrieben.
-
1 ist
eine schematische graphische Darstellung, die die Verbindung zwischen
einem gegebenen emotionalen Raum und einem entsprechenden Merkmalsraum
zeigt.
-
2 ist
ein schematischer Blockschaltplan, der eine bevorzugte Ausführungsform
des Verfahrens der Erfindung zum Erfassen von Emotionen beschreibt.
-
Im
Vorangehenden und im Folgenden werden für die Kürze die Merkmalsklassen für die unterschiedlichen
emotionalen Dimensionen A und E außerdem durch A bzw. E bezeichnet.
-
In
der schematischen graphischen Darstellung nach 1 ist
ein emotionaler Raum ES als eine mehr oder weniger abstrakte Entität gegebenen, die
mögliche
momentane emotionale Zustände
CES eines Sprechers per se widerspiegelt. Jeder Punkt des emotionalen
Raumes ES stellt deshalb einen möglichen
momentanen emotionalen Zustand CES eines gegebenen Sprechers dar.
Durch das Analysieren des Spracheingangs SI und das Extrahieren der
Merkmale f1, f2, f3 oder der Merkmalswerte davon auf der Grundlage
einer gegebenen Menge der Merkmalsklassen E, A wird eine Abbildung
M vom sogenannten Merkmalsraum FS in den emotionalen Raum ES definiert.
Jeder Punkt FCES im Merkmalsraum FS wird durch ein n-Tupel <f1, f2, f3> der Parameterwerte
oder Merkmalswerte der extrahierten Merkmale f1, f2, f3 dargestellt,
wobei er deshalb eine Parameterdarstellung und/oder Approximation
eines möglichen
momentanen emotionalen Zustands CES ist.
-
Die
Abszisse und die Ordinate des emotionalen Raumes ES sind unterschiedlichen
Merkmalsklassen E und A zugewiesen, während die Achsen des Merkmalsraums
FS unterschiedlichen Merkmalen zugewiesen sind, die aus einem Spracheingang SI
zu extrahieren sind. Der Wert der unterschiedlichen Merkmalsparameter
wird mittels der Spracheingangsanalyse bestimmt. Der Wert oder der
Grad der unterschiedlichen emotionalen Dimensionen im emotionalen
Raum – d.
h. die Grade von z. B. der Erregung A und der Evaluierung E – sind durch
die unterschiedlichen zugewiesenen Klassifizierer CE und CA bestimmt.
-
Im
Allgemeinen gibt es Merkmale, die nur für den CA oder nur für den CE
notwendig sind. Außerdem
könnte
es Merkmale geben, die durch beide Klassifizierer CE und CA verwendet
werden. In dem Fall der eindimensionalen oder 1dimensionalen Klassifizierer
mischen CA und CE ihre Ausgänge
in Bezug auf die Dimensionen A bzw. E nicht, d. h., CA klassifiziert
nur für
A, während
CE nur für
E klassifiziert.
-
Jeder
mögliche
emotionale Zustand CES wird deshalb als ein Bild bezeichnet, das
durch die Abbildung M eines unterschiedlichen Punktes FCES oder
n-Tupels der Parameter im Merkmalsraum FS erhalten wird. Die Achsen
des emotionalen Raums ES und deshalb seine Dimensionen E und A sind
den gegebenen Merkmalsklassen für
E und A innerhalb des emotionalen Raumes ES zugewiesen. Diese Dimensionen
definieren das Bild CES der Parameterdarstellung FCES, wobei sie
deshalb den momentanen emotionalen Zustand CES eines gegebenen momentanen
Sprechers als aktiv oder passiv und/oder als ablehnend oder zustimmend
klassifizieren.
-
In
Bezug auf jede Dimension des emotionalen Raumes ES wird ein eindeutiger
und anderer Klassifizierer CA, CE angewendet, der als einen Eingang
die entsprechende Merkmalsklasse A, E und als einen Ausgang die
Position des Punktes CES im emotionalen Raum ES hinsichtlich der
zugewiesenen Achse oder Dimension besitzt. Deshalb könnte innerhalb
der Dimensionen der Aktivierung/Erregung und Evaluierung/Freude
ein gegebener Sprecher als traurig, gelangweilt, zufrieden, entspannt,
erfreut, glücklich,
aufgeregt, ärgerlich, ängstlich
und/oder dergleichen klassifiziert werden, wobei jede Eigenschaft
durch unterschiedliche Grade innerhalb der entsprechenden emotionalen
Dimensionen A und E dargestellt wird.
-
2 erklärt mittels
eines schematischen Blockschaltplans eine bevorzugte Ausführungsform des
Verfahrens der Erfindung, um Emotionen aus einem Spracheingang zu
erfassen. Das Verfahren beginnt mit einem ersten und einleitenden
Schritt S0, in dem vorbereitende Daten bereitgestellt und evaluiert werden.
In einem ersten Schritt S1 – der
im Folgenden wiederholt werden könnte – wird ein
Spracheingang SI empfangen.
-
Das
Verfahren der Ausführungsform
nach 2 ist hauptsächlich
in einen ersten Abschnitt S10 und einen zweiten Abschnitt S20 unterteilt,
die der Evaluierung des Spracheingangs SI in Bezug auf eine erste
Merkmalsklasse, die einer ersten emotionalen Dimension der Erregung/Aktivierung
A zugewiesen ist, bzw. eine zweite Merkmalsklasse, die einer zweiten
emotionalen Dimension der Evaluierung/Freude im emotionalen Raum
ES zugewiesen ist, zugewiesen sind. Die Abschnitte S10 und S20 können aufeinanderfolgend
oder parallel ausgeführt werden,
da sie im Wesentlichen unabhängig
sind.
-
Im
ersten Schritt S11 des ersten Abschnitts S10 innerhalb einer ersten
Merkmalsklasse A der Prosodie-Merkmale werden die Prosodie-Merkmale oder
-Parameter hiervon aus der Analyse des gegebenen Spracheingangs
SI erzeugt und extrahiert. Die Prosodie-Merkmale können die
Tonhöhe,
den Tonhöhenbereich,
die Lautstärke,
die Sprechgeschwindigkeit und/oder dergleichen umfassen.
-
Im
folgenden Schritt S12 des ersten Abschnitts S10 werden aus den Prosodie-Merkmalen die Merkmalsvektoren
konstruiert, wobei sie auf den Unterraum der Aktivierung/Erregung
entsprechend der ersten Merkmalsklasse A abgebildet werden, um einen
passiven oder aktiven Zustand des momentanen Sprechers zu klassifizieren.
Für die
Klassifizierung des emotionalen Zustands CES des momentanen Sprechers
innerhalb des Unterraums der Aktivierung/Erregung bestimmt der Klassifizierer
CA mit verhältnismäßig niedriger
Komplexität
den Grad der Erregung/Aktivierung A.
-
Andererseits
werden im zweiten Abschnitt S20 in einem ersten Schritt S21 die
Merkmale einer zweiten Merkmalsklasse E erzeugt, die zu einer Menge
von Stimm- und/oder Sprachqualitätsmerkmalen gehören. Diese
Qualitätsmerkmale
können
die Spektralneigung, die Amplitudendifferenz zwischen Harmonischen
und Formanten, die Formantenbandbreite, das Zittern, das Verhältnis der
Harmonischen zum Rauschen und/oder dergleichen enthalten.
-
Im
Schritt S22 werden aus diesen Merkmalen Merkmalsvektoren konstruiert
und dann in den Unterraum oder die Dimension der Evaluierung/Freude
entsprechend der zweiten Merkmalsklasse E abgebildet, um einen momentanen
Sprecher zu klassifizieren, der negativ oder positiv spricht. In
die Klassifizierung des emotionalen Zustands CES des Sprechers im
Unterraum der Evaluierung/Freude ist der Klassifizierer CE mit relativ
hoher Komplexität
einbezogen, wobei er den Grad der Evaluierung/Freude E bestimmt.
Diese Komplexität
des Klassifizierers kann in der Tat ein Mehrfachklassifizierersystem,
Sprecherabhängigkeiten
und/oder dergleichen enthalten.
-
Die
aus diesen Klassifizierungsschemata der Schritte S12 und S22 herauskommenden
Ergebnisse können
durch Evaluierung in einem endgültigen Klassifizierungsalgorithmus
entsprechend Schritt S30 verschmolzen und vereinigt werden.
-
Schließlich wird
im Schritt S40 ein momentaner emotionaler Zustand CES des momentanen Sprechers
als ein Ergebnis des Verfahrens erfasst und/oder ausgegeben.
-
Das
Konzept der Unterraum-Spezialisten basiert im Wesentlichen auf der
Verwendung von Klassifizierern, die in jedem Fall in Bezug auf einen
bestimmten Unterraum der Merkmale oder in einem bestimmten Unterraum
der Merkmale spezialisiert sind. Die Identifikation und Zuordnung
der Merkmalsklassen zu bestimmten Dimensionen des emotionalen Raums
oder Unterräumen
hiervon basiert im Wesentlichen sowohl auf der phonetischen Theorie
und Phonologie-Theorie
als auch auf psychologischen und physiologischen Untersuchungen.
Jedes Verfahren, um die Merkmalsvektoren zu klassifizieren, kann verwendet
werden, um Klassifizierer oder Klassifizierersysteme aufzubauen.
Diese Verfahren können neuronale
Netze, Unterstützungsvektormaschinen, Gaußsche Mischungen,
K-nächste
Nachbarn oder dergleichen enthalten.
-
Die
Kombination der Ergebnisse von den verschiedenen Klassifizierern
oder Spezialisten für jeden
der Merkmalsunterräume
kann mit einem dritten endgültigen
Klassifizierer ausgeführt
werden, dessen Eingänge
entweder die Grade jeder Dimension oder die bedingten Emotionen
für jede
Dimension sein können,
und dessen Ausgang die klassifizierte Emotion ist.