DE60115653T2

DE60115653T2 - Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten

Info

Publication number: DE60115653T2
Application number: DE60115653T
Authority: DE
Inventors: Raquel Heinrich-Hertz-Str. 1 Tato; Thomas Heinrich-Hertz-Str. 1 Kemp; Krzysztof Heinrich-Hertz-Str. 1 Marasek
Original assignee: Sony Deutschland GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2001-10-05
Filing date: 2001-10-05
Publication date: 2006-08-10
Anticipated expiration: 2021-10-06
Also published as: US7729914B2; US20030069728A1; EP1300831A1; EP1300831B1; JP2003162294A; DE60115653D1

Description

Die Erfindung bezieht sich auf ein Verfahren zum Erfassen von Emotionen und insbesondere auf ein Verfahren zum Erfassen von Emotionen aus einem Spracheingang durch das Einbeziehen von sogenannten Unterraum-Spezialisten.
In vielen Anwendungen ist es erwünscht, den momentanen emotionalen Zustand eines menschlichen Sprechers, z. B. eines Anwenders einer Ausrüstung oder dergleichen, zu erfassen. Viele Verfahren, um den emotionalen Zustand eines Menschen zu erfassen, sind beschrieben worden. Viele dieser bekannten Verfahren verwenden und evaluieren verschiedene Quellen der Merkmale, visuelle Quellen, akustische Quellen und andere physiologische Quellen, z. B. die Spannung, die Feuchtigkeit und die Temperatur der Haut, den Blutdruck, die Rate des Herzschlags und/oder dergleichen.
In dem Fall des akustischen Spracheingangs ist jedoch die Erfassung der Emotionen ein sehr schwieriges Problem, weil die Varianz zwischen den Sprechern der emotionalen Sprache sehr hoch ist. Deshalb könnte die Evaluierung einer einzelnen Merkmalsklasse des Spracheingangs nicht ausreichend sein, um einen momentanen emotionalen Zustand eines menschlichen Sprechers in einer sicheren Weise zu erfassen.
"Describing the emotional states expressed in speech" von Roddy Cowie, ISCA Workshop on Speech and Emotion, Belfast 2000, S. 1 bis 8, betrifft die Beschreibung emotionaler Zustände, die in Sprache ausgedrückt sind. Um den emotionalen Zustand zu beschreiben, wird vorgeschlagen, einen Aktivierungs-Evaluierungs-Raum zu verwenden. Das zitierte Dokument lehrt jedoch nicht, wie dieser Aktivierungs-Evaluierungs-Raum verwendet werden kann, um Emotionen aus akustischer Sprache in einer effizienten Weise zu erfassen und folglich eine niedrige Fehlerrate für die Erfassung von Emotionen zu erhalten.
Ferner ist ein Überblick über Sprache und Emotion in Cowie u. a., "Emotion Recognition in Human-Computer Interaction", IEEE Signal Processing Maga zine, Jan. 2001, S. 32–80, dargestellt.
Es ist eine Aufgabe der Erfindung, ein Verfahren zum Erfassen von Emotionen aus akustischer Sprache zu schaffen, bei dem der Fehler einer derartigen Erfassung besonders niedrig ist und die Erfassung selbst genauer und verfeinerter ist.
Diese Aufgabe wird durch ein Verfahren zum Erfassen von Emotionen mit den kennzeichnenden Merkmalen des Anspruchs 1 gelöst. Die Aufgabe wird außerdem sowohl durch ein System, um das Verfahren auszuführen, gemäß den Merkmalen des Anspruchs 7 als auch durch ein Computerprogrammprodukt gemäß den Merkmalen des Anspruchs 8 gelöst. Bevorzugte Ausführungsformen des Verfahrens der Erfindung zum Erfassen von Emotionen liegen innerhalb des Umfangs der entsprechenden abhängigen Unteransprüche.
Die Erfindung basiert auf der Feststellung und der Annahme, dass die verschiedenen menschlichen Emotionen und Affekte in einem mehrdimensionalen Raum – insbesondere in zwei Dimensionen – dargestellt werden können und dass jede oder beide Dimensionen für die Klassifizierung und Erkennung relevant sind.
Gemäß der Erfindung werden beim Verfahren zum Erfassen von Emotionen aus einem Spracheingang – insbesondere von wenigstens einem Sprecher – wenigstens eine erste Merkmalsklasse und eine zweite Merkmalsklasse von Merkmalen wenigstens teilweise aus einem gegebenen Spracheingang evaluiert, abgeleitet und/oder extrahiert. Aus den Merkmalen und/oder den Parametern hiervon werden ein momentaner emotionaler Zustand eines momentanen Sprechers und/oder Parameter hiervon abgeleitet. Die ersten und zweiten Merkmalsklassen werden mit insbesondere unterschiedlichen Dimensionen einer zugrundeliegenden emotionalen Mannigfaltigkeit oder eines zugrundeliegenden emotionalen Raums und/oder Unterräumen hiervon identifiziert und/oder insbesondere unterschiedlichen Dimensionen einer zugrundeliegenden emotionalen Mannigfaltigkeit oder eines zugrundeliegenden emotionalen Raums und/oder Unterräumen hiervon zugeordnet, insbesondere bei Aktivierung oder Erregung bzw. Evaluierung oder Freude.
Es ist deshalb eine Schlüsselidee der Erfindung, die unterschiedlichen ersten und zweiten Merkmalsklassen mit den Dimensionen einer gegebenen emotionalen Mannigfaltigkeit, eines gegebenen emotionalen Raums und/oder Unterräumen hiervon zu identifizieren und/oder den Dimensionen einer gegebenen emotionalen Mannigfaltigkeit, eines gegebenen emotionalen Raums und/oder Unterräumen hiervon zuzuordnen. Im Gegensatz zu den Verfahren des Standes der Technik, um Emotionen aus Sprache zu erfassen, umfasst die Erfindung nicht nur mehrere Merkmalsklassen, sondern sie identifiziert außerdem diese Merkmalsklassen mit den Dimensionen der emotionalen Mannigfaltigkeit oder des emotionalen Raums und bildet deshalb diese Merkmalsklassen auf die Dimensionen der emotionalen Mannigfaltigkeit oder des emotionalen Raums ab, um eine Verfeinerung der Beschreibung der Merkmale und deshalb eine Verfeinerung des Erfassungsprozesses der emotionalen Zustände des Sprechers zu liefern. Dies kann anhand der verschiedenen Grade der Komplexität für jede Dimension ausgeführt werden.
Gemäß einer bevorzugten Ausführungsform der Erfindung wird vorgeschlagen, für jede Merkmalsklasse, für jede Dimension/jeden Unterraum der emotionalen Mannigfaltigkeit und/oder für Gruppen hiervon in jedem Fall einen separaten und/oder unterschiedlichen Spezialisten – insbesondere Unterraum-Spezialisten oder dergleichen – oder ein spezialisiertes Klassifizierersystem zu verwenden und/oder zu konstruieren. Jedes der spezialisierten Klassifizierersysteme ist insbesondere beschaffen, um Merkmale im Prinzip aus einer zugewiesen Merkmalsklasse und/oder aus einer zugewiesen Dimension oder einem zugewiesen Unterraum der Emotionen zu erhalten, zu erzeugen, zu evaluieren und/oder zu klassifizieren. Im Allgemeinen gibt es Merkmale, die nur für einen einzelnen Klassifizierer notwendig sind. Außerdem könnte es Merkmale geben, die durch mehrere oder alle Klassifizierer verwendet werden. Hier wird eine Merkmalsklasse für einen gegebenen Klassifizierer als die vollständige Menge der Merkmale bezeichnet, die für den bestimmten Klassifizierer notwendig ist.
In einer weiteren vorteilhaften Ausführungsform des Verfahrens der Erfindung zum Erfassen von Emotionen aus Sprache werden die unterschiedlichen spezialisierten Klassifizierersysteme auf unterschiedliche Merkmalsklassen, die bereits aus dem Spracheingang extrahiert worden sind, und/oder auf den Spracheingang direkt angewendet. Ferner werden die dadurch evaluierten, abgeleiteten und/oder extrahierten Merkmale, Emotionen und/oder Parameter hiervon, insbesondere aus verschiedenen Merkmals-Unterräumen, gesammelt und/oder gespeichert, insbesondere um eine endgültige Klassifizierung durch die Kombination der Ergebnisse zu erhalten.
Es ist bevorzugt, dass die Merkmale, Emotionen und/oder Parameter hiervon, die insbesondere aus verschiedenen Merkmals-Unterräumen evaluiert, abgeleitet und/oder extrahiert worden sind, kombiniert werden, insbesondere um den momentanen emotionalen Zustand des momentanen Anwenders und/oder Parameter hiervon zu beschreiben.
In einer weiteren bevorzugten Ausführungsform des Verfahrens der Erfindung zum Erfassen von Emotionen aus Sprache werden unterschiedliche spezialisierte Klassifizierersysteme und/oder die Merkmale oder Ausgänge hiervon kombiniert, vereinigt und/oder verschmolzen, insbesondere um ein globales Klassifizierersystem zu bilden – im Fall nicht orthogonaler Unterräume oder Klassifizierersysteme – insbesondere mittels eines empirischen Gewichtungsalgorithmus oder dergleichen. Dies wird ausgeführt, um mit dem häufigen menschlichen Sprechverhalten und der Abhängigkeit davon vom zugrundeliegenden emotionalen Zustand umzugehen und das häufige menschliche Sprechverhalten und die Abhängigkeit davon vom zugrundeliegenden emotionalen Zustand zu berücksichtigen.
Es ist von Vorteil, eine Klasse von Prosodie-Merkmalen wenigstens als ein Teil der ersten Merkmalsklasse zu verwenden, die insbesondere wenigstens teilweise mit einer Aktivierungs- und/oder Erregungsdimension der Emotionen oder der emotionalen Mannigfaltigkeit identifiziert wird.
Alternativ oder zusätzlich ist es von weiterem Vorteil, eine Klasse der Sprachund/oder Stimmqualitätsmerkmale wenigstens als ein Teil der zweiten Merkmalsklasse zu verwenden, die insbesondere wenigstens teilweise mit einer Freude- und/oder Evaluierungsdimension der Emotionen oder der emotionalen Mannigfaltigkeit identifiziert wird.
Es ist ferner bevorzugt, ein – insbesondere eindimensionales – Klassifizierersystem mit einer niedrigen Komplexität zu verwenden, insbesondere als ein Klassifizierersystem für Prosodie-Merkmale oder für eine Prosodie-Merkmalsklasse.
Alternativ oder zusätzlich ist es bevorzugt, ein – insbesondere eindimensiona les – Klassifizierersystem mit hoher Komplexität zu verwenden, insbesondere als ein Klassifizierersystem für Sprach- und/oder Stimmqualitätsmerkmale oder für eine Stimm- und/oder Sprachqualitätsmerkmalsklasse.
Eindimensionale oder 1dimensionale Klassifizierersysteme werden die hier als Klassifizierersysteme bezeichnet, die ihre Ausgänge nicht vermischen.
Insbesondere das Klassifizierersystem mit hoher Komplexität kann mehrere einzelne Klassifizierer enthalten, insbesondere durch Implementierung der Sprecherabhängigkeiten. Diese Sprecherabhängigkeiten können Alter, Geschlecht und/oder dergleichen enthalten.
Gemäß einem weiteren Aspekt der Erfindung können die verschiedenen Klassifizierer in Abhängigkeit von den Merkmalsunterräumen, die sie als einen Eingang haben, als einen Ausgang nicht nur geeignete Emotionen liefern, sondern auch einen Grad von Emotionen, insbesondere einen Grad der Freude und/oder Aktivierung, die anschließend kombiniert werden können, um einen momentanen emotionalen Zustand des Sprechers zu erhalten.
Als Prosodie-Merkmale können die Merkmale der Tonhöhe, des Tonhöhenbereichs, der Intonationsart, der Lautstärke, der Sprechgeschwindigkeit, der Einzellautdauer, der Sprachelementdauer und/oder dergleichen verwendet werden.
Als die Sprach- oder Stimmqualitätsmerkmale können Lautbildungstyp, Artikulationsweise, Klangfarbenmerkmale der Sprache, Spektralneigung, Amplitudendifferenz zwischen Harmonischen und Formanten, Formantenbandbreite, Zittern, Merkmale bezüglich des Verhältnisses der Harmonischen zum Rauschen und/oder dergleichen verwendet werden.
Es ist ein weiterer Aspekt der Erfindung, ein System, eine Vorrichtung, eine Einrichtung und/oder dergleichen zu schaffen, um Emotionen aus einer Eingangssprache zu erfassen, das bzw. die in jedem Fall das Verfahren der Erfindung zum Erfassen von Emotionen aus einem Spracheingang und/oder seine Schritte ausführen und/oder verwirklichen kann.
Gemäß einem weiteren Aspekt der Erfindung wird ein Computerprogrammpro dukt geschaffen, das Computerprogrammittel enthält, die so beschaffen sind, um das Verfahren der Erfindung zum Erfassen von Emotionen aus einem Spracheingang und/oder seine Schritte auszuführen und/oder zu verwirklichen, wenn es auf einem Computer, einem digitalen Signalverarbeitungsmittel und/oder dergleichen ausgeführt wird.
Weiterer Aspekte der Erfindung werden aus den folgenden Bemerkungen offensichtlich:
Es ist eine Grundidee der Erfindung, die emotionalen Dimensionen zu verwenden, um einen Klassifizierer für die automatische Erkennung oder Erfassung von Emotionen zu konstruieren. Die verschiedenen menschlichen Emotionen und Affekte können in einem mehrdimensionalen Raum oder einer mehrdimensionalen Mannigfaltigkeit dargestellt werden, insbesondere in zwei Dimensionen. Eine Dimension bezieht sich z. B. auf die Aktivierung oder Erregung. Die andere Dimension bezieht sich auf die Evaluierung oder Freude. Die Emotionen, die im selben Bereich der emotionalen Mannigfaltigkeit oder des emotionalen Raumes angeordnet sind, besitzen ähnliche Merkmale hinsichtlich der Akustik, wobei sie schwieriger zu klassifizieren sind. Deshalb kann die Anwendung von Unterraum-Spezialisten und einer Technik hierfür, die auf der Zuordnung der emotionalen Dimensionen und des Merkmalsraumes basiert, bessere Erkennungsraten liefern und die Erfassungsfehler verringern.
Übliche und bekannte Schemata für die Klassifizierung von Emotionen verwenden verschiedene Klassifizierer, wie z. B. neuronale Netze, die lernende Vektorquantisierung, die lineare Diskriminantenanalyse, CART-Regressionsbäume, nächster Nachbar, K-nächster Nachbar und/oder dergleichen.
Die Erkennung von Emotionen aus einem Sprachsignal ist keine leichte Aufgabe. Bis jetzt machen die meisten der bekannten Klassifizierer von den prosodischen Merkmalen oder Prosodie-Merkmalen gebraucht. Diese Prosodie-Merkmale sind leicht zu handhaben, sie liefern aber nur Informationen über eine sogenannte Aktivierungs- oder Erregungsdimension der Emotionen.
Es ist ein Aspekt der Erfindung, wenigstens eine zweite Dimension des emotionalen Raumes zu berücksichtigen. Es wird insbesondere vorgeschlagen, die Freude- oder Evaluierungsdimension des emotionalen Raumes oder der emoti onalen Mannigfaltigkeit zu evaluieren. Eine derartige Dimension wird durch die Qualitätsmerkmale der Sprache oder der Stimme außerordentlich beeinflusst, d.h. von den Hörmerkmalen, die sich aus den Variationen im Quellsignal und den Eigenschaften des Stimmenapparats ergeben. Diese Qualitätsmerkmale sind sehr sprecherabhängig.
Eines der Hauptprobleme, wenn ein Klassifizierer für die Erkennung von Emotionen oder die Erfassung von Emotionen aus der Sprache konstruiert wird, ist die Tatsache, dass dieselbe Emotion abhängig vom Sprecher durch verschiedene Merkmale ausgedrückt oder auf verschiedene Merkmale abgebildet werden kann. Einige Sprecher machen in nur einer der möglichen emotionalen Dimensionen im emotionalen Raum Unterschiede. Für Sprecher, die von mehreren derartigen emotionalen Dimensionen Gebrauch machen, ist es schwierig, einen gemeinsamen Bereich der Emotionen zu definieren.
Vorausgesetzt, dass mehrere Dimensionen des emotionalen Raumes – im obenerwähnten Fall werden zwei Dimensionen verwendet – für eine genaue emotionale Klassifizierung relevant sind und dass sich diese Emotionen auf verschiedene Merkmale der Sprache mit einem verschiedenen Grad der Komplexität beziehen, ist es ein Vorschlag gemäß der Erfindung, beide Konzepte zu verwenden, um eine optimale Konstruktion für den Klassifizierer zu erhalten.
Es ist eine Idee hinter der Erfindung, von mehreren emotionalen Dimensionen Gebrauch zu machen, um einen Klassifizierer für die automatische Erkennung und Erfassung von Emotionen zu konstruieren. Diese Idee ist mit einer weiteren Idee kombiniert, um eine Technik eines Unterraum-Spezialisten anhand der Zuordnung der emotionalen Dimensionen und des Merkmalsraumes anzuwenden. Im Grunde würde es gemäß einem Aspekt der Erfindung ausreichend sein, die Anwendung verschiedener Klassifizierer für jeden der Merkmals-Unterräume einzubeziehen, die den Prosodie-Merkmalen und den Qualitätsmerkmalen zugewiesen sind, und die Ergebnisse von den verschiedenen Klassifizierern zu kombinieren.
Es ist ein weiterer Aspekt der Erfindung, diese Schlüsselidee durch einen der folgenden zwei Zugänge oder durch eine Kombination von ihnen zu verbessern.

(a) Weil sich beide Dimensionen des emotionalen Raumes auf der Grundlage eines zweidimensionalen Konzepts auf verschiedene Merkmale der Sprache mit einem anderen Grad der Komplexität beziehen, ist es sinnvoll, das Problem zu teilen und zwei Klassifizierungstechniken zu konstruieren. Jede dieser Klassifizierungstechniken betrachtet einen Unterraum der emotionalen Mannigfaltigkeit oder des emotionalen Unterraums und betrachtet deshalb verschiedene Merkmale. Für den problematischsten Fall, d. h. für den Unterraum der Qualitätsmerkmale, kann es vorgesehen sein, mehr als einen Klassifizierer für diesen Unterraum zu verwenden, wobei sogar irgendeine Art der Sprecherabhängigkeit, wie z. B. Alter, Geschlecht und dergleichen, einbezogen werden kann. Ein endgültiger Klassifizierungsalgorithmus wird dann anschließend implementiert, um die Ergebnisse der Unterraum-Spezialisten zu verschmelzen.
(b) Andererseits ist es ziemlich leicht, für eine gegebene Emotion den Grad der Freude und Aktivierung zu bestimmen. Deshalb ist es anhand dieser Kenntnis möglich, die Klassifizierung einer derartigen Emotion mit einer Menge von Kandidaten zu folgern. Für diesen Zweck ist es notwendig, entweder eine Trainingsdatenbank, die mit verschiedenen Niveaus der Aktivierung und der Freude geeignet bezeichnet ist, oder eine Datenbank, die mit Emotionen bezeichnet ist, zu besitzen und dann jede dieser Emotionen festen Koordinaten in beiden Dimensionen, der Aktivierung und der Freude, zuzuordnen. Die Klassifizierung wird hinsichtlich derartiger Niveaus ausgeführt, wobei es eine Abbildung von bestimmten Bereichen des emotionalen Raumes auf verschiedene Emotionen gibt.

Im Folgenden werden weitere vorteilhafte Aspekte der Erfindung unter Bezugnahme auf die beigefügten Figuren beschrieben.
1 ist eine schematische graphische Darstellung, die die Verbindung zwischen einem gegebenen emotionalen Raum und einem entsprechenden Merkmalsraum zeigt.
2 ist ein schematischer Blockschaltplan, der eine bevorzugte Ausführungsform des Verfahrens der Erfindung zum Erfassen von Emotionen beschreibt.
Im Vorangehenden und im Folgenden werden für die Kürze die Merkmalsklassen für die unterschiedlichen emotionalen Dimensionen A und E außerdem durch A bzw. E bezeichnet.
In der schematischen graphischen Darstellung nach 1 ist ein emotionaler Raum ES als eine mehr oder weniger abstrakte Entität gegebenen, die mögliche momentane emotionale Zustände CES eines Sprechers per se widerspiegelt. Jeder Punkt des emotionalen Raumes ES stellt deshalb einen möglichen momentanen emotionalen Zustand CES eines gegebenen Sprechers dar. Durch das Analysieren des Spracheingangs SI und das Extrahieren der Merkmale f1, f2, f3 oder der Merkmalswerte davon auf der Grundlage einer gegebenen Menge der Merkmalsklassen E, A wird eine Abbildung M vom sogenannten Merkmalsraum FS in den emotionalen Raum ES definiert. Jeder Punkt FCES im Merkmalsraum FS wird durch ein n-Tupel <f1, f2, f3> der Parameterwerte oder Merkmalswerte der extrahierten Merkmale f1, f2, f3 dargestellt, wobei er deshalb eine Parameterdarstellung und/oder Approximation eines möglichen momentanen emotionalen Zustands CES ist.
Die Abszisse und die Ordinate des emotionalen Raumes ES sind unterschiedlichen Merkmalsklassen E und A zugewiesen, während die Achsen des Merkmalsraums FS unterschiedlichen Merkmalen zugewiesen sind, die aus einem Spracheingang SI zu extrahieren sind. Der Wert der unterschiedlichen Merkmalsparameter wird mittels der Spracheingangsanalyse bestimmt. Der Wert oder der Grad der unterschiedlichen emotionalen Dimensionen im emotionalen Raum – d. h. die Grade von z. B. der Erregung A und der Evaluierung E – sind durch die unterschiedlichen zugewiesenen Klassifizierer CE und CA bestimmt.
Im Allgemeinen gibt es Merkmale, die nur für den CA oder nur für den CE notwendig sind. Außerdem könnte es Merkmale geben, die durch beide Klassifizierer CE und CA verwendet werden. In dem Fall der eindimensionalen oder 1dimensionalen Klassifizierer mischen CA und CE ihre Ausgänge in Bezug auf die Dimensionen A bzw. E nicht, d. h., CA klassifiziert nur für A, während CE nur für E klassifiziert.
Jeder mögliche emotionale Zustand CES wird deshalb als ein Bild bezeichnet, das durch die Abbildung M eines unterschiedlichen Punktes FCES oder n-Tupels der Parameter im Merkmalsraum FS erhalten wird. Die Achsen des emotionalen Raums ES und deshalb seine Dimensionen E und A sind den gegebenen Merkmalsklassen für E und A innerhalb des emotionalen Raumes ES zugewiesen. Diese Dimensionen definieren das Bild CES der Parameterdarstellung FCES, wobei sie deshalb den momentanen emotionalen Zustand CES eines gegebenen momentanen Sprechers als aktiv oder passiv und/oder als ablehnend oder zustimmend klassifizieren.
In Bezug auf jede Dimension des emotionalen Raumes ES wird ein eindeutiger und anderer Klassifizierer CA, CE angewendet, der als einen Eingang die entsprechende Merkmalsklasse A, E und als einen Ausgang die Position des Punktes CES im emotionalen Raum ES hinsichtlich der zugewiesenen Achse oder Dimension besitzt. Deshalb könnte innerhalb der Dimensionen der Aktivierung/Erregung und Evaluierung/Freude ein gegebener Sprecher als traurig, gelangweilt, zufrieden, entspannt, erfreut, glücklich, aufgeregt, ärgerlich, ängstlich und/oder dergleichen klassifiziert werden, wobei jede Eigenschaft durch unterschiedliche Grade innerhalb der entsprechenden emotionalen Dimensionen A und E dargestellt wird.
2 erklärt mittels eines schematischen Blockschaltplans eine bevorzugte Ausführungsform des Verfahrens der Erfindung, um Emotionen aus einem Spracheingang zu erfassen. Das Verfahren beginnt mit einem ersten und einleitenden Schritt S0, in dem vorbereitende Daten bereitgestellt und evaluiert werden. In einem ersten Schritt S1 – der im Folgenden wiederholt werden könnte – wird ein Spracheingang SI empfangen.
Das Verfahren der Ausführungsform nach 2 ist hauptsächlich in einen ersten Abschnitt S10 und einen zweiten Abschnitt S20 unterteilt, die der Evaluierung des Spracheingangs SI in Bezug auf eine erste Merkmalsklasse, die einer ersten emotionalen Dimension der Erregung/Aktivierung A zugewiesen ist, bzw. eine zweite Merkmalsklasse, die einer zweiten emotionalen Dimension der Evaluierung/Freude im emotionalen Raum ES zugewiesen ist, zugewiesen sind. Die Abschnitte S10 und S20 können aufeinanderfolgend oder parallel ausgeführt werden, da sie im Wesentlichen unabhängig sind.
Im ersten Schritt S11 des ersten Abschnitts S10 innerhalb einer ersten Merkmalsklasse A der Prosodie-Merkmale werden die Prosodie-Merkmale oder -Parameter hiervon aus der Analyse des gegebenen Spracheingangs SI erzeugt und extrahiert. Die Prosodie-Merkmale können die Tonhöhe, den Tonhöhenbereich, die Lautstärke, die Sprechgeschwindigkeit und/oder dergleichen umfassen.
Im folgenden Schritt S12 des ersten Abschnitts S10 werden aus den Prosodie-Merkmalen die Merkmalsvektoren konstruiert, wobei sie auf den Unterraum der Aktivierung/Erregung entsprechend der ersten Merkmalsklasse A abgebildet werden, um einen passiven oder aktiven Zustand des momentanen Sprechers zu klassifizieren. Für die Klassifizierung des emotionalen Zustands CES des momentanen Sprechers innerhalb des Unterraums der Aktivierung/Erregung bestimmt der Klassifizierer CA mit verhältnismäßig niedriger Komplexität den Grad der Erregung/Aktivierung A.
Andererseits werden im zweiten Abschnitt S20 in einem ersten Schritt S21 die Merkmale einer zweiten Merkmalsklasse E erzeugt, die zu einer Menge von Stimm- und/oder Sprachqualitätsmerkmalen gehören. Diese Qualitätsmerkmale können die Spektralneigung, die Amplitudendifferenz zwischen Harmonischen und Formanten, die Formantenbandbreite, das Zittern, das Verhältnis der Harmonischen zum Rauschen und/oder dergleichen enthalten.
Im Schritt S22 werden aus diesen Merkmalen Merkmalsvektoren konstruiert und dann in den Unterraum oder die Dimension der Evaluierung/Freude entsprechend der zweiten Merkmalsklasse E abgebildet, um einen momentanen Sprecher zu klassifizieren, der negativ oder positiv spricht. In die Klassifizierung des emotionalen Zustands CES des Sprechers im Unterraum der Evaluierung/Freude ist der Klassifizierer CE mit relativ hoher Komplexität einbezogen, wobei er den Grad der Evaluierung/Freude E bestimmt. Diese Komplexität des Klassifizierers kann in der Tat ein Mehrfachklassifizierersystem, Sprecherabhängigkeiten und/oder dergleichen enthalten.
Die aus diesen Klassifizierungsschemata der Schritte S12 und S22 herauskommenden Ergebnisse können durch Evaluierung in einem endgültigen Klassifizierungsalgorithmus entsprechend Schritt S30 verschmolzen und vereinigt werden.
Schließlich wird im Schritt S40 ein momentaner emotionaler Zustand CES des momentanen Sprechers als ein Ergebnis des Verfahrens erfasst und/oder ausgegeben.
Das Konzept der Unterraum-Spezialisten basiert im Wesentlichen auf der Verwendung von Klassifizierern, die in jedem Fall in Bezug auf einen bestimmten Unterraum der Merkmale oder in einem bestimmten Unterraum der Merkmale spezialisiert sind. Die Identifikation und Zuordnung der Merkmalsklassen zu bestimmten Dimensionen des emotionalen Raums oder Unterräumen hiervon basiert im Wesentlichen sowohl auf der phonetischen Theorie und Phonologie-Theorie als auch auf psychologischen und physiologischen Untersuchungen. Jedes Verfahren, um die Merkmalsvektoren zu klassifizieren, kann verwendet werden, um Klassifizierer oder Klassifizierersysteme aufzubauen. Diese Verfahren können neuronale Netze, Unterstützungsvektormaschinen, Gaußsche Mischungen, K-nächste Nachbarn oder dergleichen enthalten.
Die Kombination der Ergebnisse von den verschiedenen Klassifizierern oder Spezialisten für jeden der Merkmalsunterräume kann mit einem dritten endgültigen Klassifizierer ausgeführt werden, dessen Eingänge entweder die Grade jeder Dimension oder die bedingten Emotionen für jede Dimension sein können, und dessen Ausgang die klassifizierte Emotion ist.

Claims

Verfahren zum Erfassen von Emotionen aus einem Spracheingang, bei dem – wenigstens eine erste Merkmalsklasse (A) und eine zweite Merkmalsklasse (E) von Merkmalen wenigstens teilweise aus einem gegebenen Spracheingang (SI) extrahiert werden, – aus den Merkmalen ein momentaner emotionaler Zustand (CES) des momentanen Sprechers oder Parameter (CFS) hiervon abgeleitet werden, – der ersten und der zweiten Merkmalsklasse (A, E) Dimensionen einer zu Grunde liegenden emotionalen Mannigfaltigkeit (EM) oder Unterräume hiervon zugeordnet werden, – für jede Dimension oder für jeden Unterraum ein unterschiedliches, spezielles Klassifizierersystem (CA, CE) verwendet wird, wovon jedes so beschaffen ist, dass es Merkmale einer zugewiesenen Merkmalsklasse (A, E) klassifiziert, – die Ausgänge der unterschiedlichen, speziellen Klassifizierersysteme (CA, CE) für jede Merkmalsklasse (A, E) kombiniert werden, um ein globales Klassifizierersystem zu bilden, um den momentanen emotionalen Zustand (CES) zu erhalten, – eine Klasse von Prosodie-Merkmalen, die wenigstens teilweise mit einer Aktivierungs- oder Erregungsdimension von Emotionen oder der emotionalen Mannigfaltigkeit (EM) identifiziert wird, wenigstens als ein Teil der ersten Merkmalsklasse (A) verwendet wird, – eine Klasse von Sprach- oder Stimmqualitätsmerkmalen, die wenigstens teilweise mit einer Freude- oder Evaluierungsdimension von Emotionen oder der emotionalen Mannigfaltigkeit (EM) identifiziert wird, wenigstens als ein Teil der zweiten Merkmalsklasse (E) verwendet wird, – ein eindimensionales Klassifizierersystem (CA) mit niedriger Komplexität als ein Klassifizierersystem (CA) für die Prosodie-Merkmale verwendet wird, – ein eindimensionales Klassifizierersystem (CE) mit hoher Komplexität als ein Klassifizierersystem (CE) für die Sprach- oder Stimmqualitätsmerkmale verwendet wird, wobei das Klassifizierersystem für Sprach- oder Stimmqualitätsmerkmale mehrere Klassifizierer enthält, indem Sprecherabhängigkeiten wie etwa Alter oder Geschlecht implementiert werden.
Verfahren nach Anspruch 1, bei dem die unterschiedlichen, speziellen Klassifizierersysteme (CA, CE) auf die verschiedenen Merkmalsklassen (A, E), die bereits aus dem Spracheingang (SI) extrahiert worden sind, und/oder direkt auf den Spracheingang (SI) angewendet werden und bei dem dadurch abgeleitete Parameter von Emotionen aus unterschiedlichen Merkmalsunterräumen gesammelt oder gespeichert werden, um eine endgültige Klassifizierung durch eine Kombination der Ergebnisse zu erhalten.
Verfahren nach Anspruch 2, bei dem die aus verschiedenen Merkmalsunterräumen abgeleiteten Emotionsparameter kombiniert werden, um einen momentanen emotionalen Zustand (CES) des momentanen Sprechers zu beschreiben.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die verschiedenen Klassifizierer als einen Ausgang nicht nur geeignete Emotionen angeben können, sondern auch einen Grad von Emotionen in Abhängigkeit von den Merkmalsunterräumen, die sie als einen Eingang haben, die anschließend kombiniert werden können, um einen momentanen emotionalen Zustand (CES) des Sprechers zu erhalten.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem Merkmale der Tonhöhe, des Tonhöhenbereichs, der Intonationsart, der Lautstärke, der Sprechgeschwindigkeit, der Einzellautdauer und/oder der Sprachelementdauer als Prosodie-Merkmale verwendet werden.
Verfahren nach einem der vorhergehenden Ansprüche, bei der Lautbildungstyp, Artikulationsweise, Klangfarbenmerkmale der Sprache, Spektralneigung, Amplitudendifferenz zwischen Harmonischen und Formanten, Formantenbandbreite, Zittern und/oder Merkmale bezüglich des Verhältnisses der Harmonischen zum Rauschen als Sprach- oder Stimmqualitätsmerkmale verwendet werden.
System zum Erfassen von Emotionen aus einem Spracheingang, das Mittel enthält, um die Schritte eines Verfahrens zum Erfassen von Emotionen nach einem der Ansprüche 1 bis 7 auszuführen.
Computerprogrammprodukt, das Computerprogrammmittel enthält, die so beschaffen sind, dass sie die Schritte eines Verfahrens zum Erfassen von Emotionen nach einem der Ansprüche 1 bis 7 ausführen, wenn es auf einem Computer oder einem digitalen Signalverarbeitungsmittel ausgeführt wird.