-
Die
vorliegende Erfindung bezieht sich auf eine Vorrichtung zur Signalverarbeitung
und insbesondere bezieht sich die vorliegende Erfindung auf eine
Vorrichtung zur Parametrisierung der Emotion anhand der Stimmfarbe.
-
Das
Mensch-Maschine-Interface (MMI) ist eine funktionale Schnittstelle
zwischen Menschen und Maschine. Das MMI ermöglicht, dass Benutzer auf die
Funktionen, die in der Maschine entweder hard-wired oder als Softwareprogramm
realisiert sind, durch bestimmte Mechanismen zugreifen. Dieses wird
im allgemeinen als Interaktivität
bezeichnet, da die Funktion nicht autonom stattfindet, sondern durch
aktive Teilnahme des Benutzers zustande kommt. Diese Bestätigung der
Funktion kann quasi als interaktive Absprache zwischen Menschen
und Maschine betrachtet werden.
-
Allerdings
basiert diese Kommunikation zwischen Menschen und Maschine auf einer
eher technisch orientierten Methode. Daher verliert der Mensch oft
den Überblick
darüber,
welche Funktionen beispielsweise ein Gerät anbietet oder wie man eine
bestimmte Funktion aktiviert. Aus diesem Grund wird immer öfter versucht,
eine menschenfreundliche Schnittstelle zu definieren und zu entwerfen.
Dabei werden die Sinnesorgane der Menschen oft als Vorbild genommen,
da sie eine über
lange Zeit optimierte „Schnittstelle" zur Umgebung darstellen
und somit bereits erfolgreich evaluiert sind. Die Sprachkommunikation
ist hier von besonderem Interesse.
-
Unter
Sprachkommunikation im Bereich MMI versteht man eine verbale Interaktivität oder kurz
ein Dialogsystem. Dieses Dialogsystem hat in der letzten Zeit viele
Anwendungsberei che neu entdeckt, wie z. B. im Bereich Telefonbanking,
in Call-Centern, in Speech-to-Text-Anwendungen usw. Dabei hat man immer
die non-verbale Komponente im Dialogsystem vernachlässigt. Dies
liegt zum Teil daran, dass das bisher entdeckte Einsatzgebiet allein
mit dem Dialogsystem gut beschäftigt
bzw. ausgelastet ist, und zum anderen Teil daran, dass kein entsprechendes
Einsatzgebiet für
die nonverbale Komponente bisher entdeckt werden konnte.
-
Hierbei
ist zunächst
klarzustellen, dass diese non-verbale Komponente, die oft in der
Forschung „Prodosy" genannt wird, aus
Klarheitsgründen
an dieser Stelle einschränkend
erneut definiert wird. Insbesondere umfasst die non-verbale Komponente
der Stimme (NVC = non-verbal component) zunächst, dass alle akustischen
Eindrücke
inklusive der Stimme Informationsquellen sind. Weiterhin werden
die semantischen und lexikongrammatischen Elemente nicht berücksichtigt
und zusätzlich
wird auch ein Ausruf (Exclamation) als Informationsquelle betrachtet.
-
Die
menschliche Stimme bzw. ein akustischer Eindruck enthält nicht
nur die Information, die ihr lexikongrammatisch zugeordnet werden
kann, sondern auch Elemente, die die emotionale Lage der Sprechenden
verraten. Diese emotionale Lage kann beispielsweise eine Aufgeregtheit,
eine Traurigkeit, eine Glücklichkeit,
eine Deprimiertheit usw. umfassen. Diese Elemente werden für die MMI-Entwicklung
bisher eher als Hindernis angesehen, weil beispielsweise eine emotionale
Aufregung die Erkennung des gesprochenen Wortes erschwert. Die non-verbale
Komponente (NVC) wird aus diesem Grund bisher als „Geräusch" oder „Interferenz" behandelt.
-
Für die Erkennung
eines gesprochenen Wortes wird in herkömmlichen Verfahren im wesentlichen die
menschliche Stimme durch technische Methoden analysiert, die in
ihren Grundzügen
nachfolgend näher
erläutert
werden.
-
Zunächst ist
in diesem Zusammenhang eine Spektrumsanalyse der Stimmfarbe (Formant-Frequenz)
zu nennen. Eine Formant-Frequenz
ist ein charakteristischer Resonanzbereich, der z.B. für die Klangfarbe
eines musikalischen Instruments oder der menschlichen Stimme (Vokal,
stimmhafte Konsonanten) verantwortlich ist. Jedoch wird die ursprüngliche Definition
heutzutage modifiziert und oft als Synonym für einen phonetischen Frequenzbereich
verwendet.
-
Die
menschliche Stimme hat ein breites Frequenzspektrum. Daher stellt
z. B. ein Vokal mehrere Formant-Frequenzen dar. Bei der Spracherkennung (oft
auch als Speech-Erkennung bezeichnet = semantische Erkennung unabhängig vom
Sprecher) sind in der Regel die erste Frequenz (niedrigere Frequenz
F1) und die zweite Frequenz (höhere
Frequenz F2) relevant, wie in 4 dargestellt
ist. Die weiteren Obertöne
(höhere
Formant-Frequenzen F3, F4,...) haben mit dem semantischen Kontext
wenig zu tun, aber dafür
eine hohe Bedeutung bei der Bestimmung von Stimmfarben wie z. B.
männlich,
weiblich und kindlich. Diese weiteren Formant-Frequenzen sind außerdem deshalb
bisher wenig fokussiert, weil deren niedrige Amplituden die weitere
Verarbeitung schwierig machen. Allerdings sind die höheren Formant-Frequenzen
bei der Synthese einer realistischen Stimme sehr wichtig, da diese
die Stimmfarbe stark beeinflussen.
-
In 4 ist
dieser Zusammenhang nochmals dargestellt, wobei zu erkennen ist,
dass, je höher
eine Formant-Frequenz ist, desto niedriger ihre Amplitude ausfällt. Die
Spektralanalyse hat jedoch einen Schwachpunkt, der darin besteht,
dass nur diejenigen Amplituden, die buchstäblich „laut schreien" (d. h. eine höhere Amplitude
haben), berücksichtigt
werden, während
die niedrigeren Amplituden der Formant-Frequenzen leicht vernachlässigt werden,
weil „laut" bzw. „groß" psychologisch und
auch bei der Signalverarbeitung oftmals für wichtiger gehalten werden
als Frequenzen mit niedrigen Amplituden. Da jedoch vor allem eine
zu erkennende Gefühlslage
aus einer Stimme aus den niedrigeren Amplituden bzw. höheren Formant-Frequenzen
erkannt werden kann, weist die herkömmliche Spektralanalyse der
Stimmfarbe einen diesbezüglichen
Nachteil auf.
-
Ein
weiterer Ansatz zur Erkennung von Emotionen ist die semi-spektrale
bzw. non-spektrale Analyse. Hierbei wird ausgenutzt, dass akustisch
ausgedrückte
Emotionen nicht immer durch sprachliche Komponenten begleitet werden,
sondern sich oft in Form von „Bursts" oder Pausen ausdrücken. Weiterhin
zeigt sich die Emotion auch durch Intanation, die beim Sprechen
verwendet wird. Diese Komponenten haben eigentlich nichts mit dem
semantischen Kontext zu tun. Trotzdem werden sie in allen Sprachen zur
Verdeutlichung des Kontextes eingesetzt. Der Ausdruck „wie bitte" kann beispielsweise
je nach der genutzten Intonation entweder als Bitte um die Wiederholung
des gesprochenen Satzes oder als aggressive Reaktion interpretiert
werden.
-
Derartige
Kamponenten und Elemente sind bei der semi-spektralen bzw. non-spektralen Analyse in
Betracht zu ziehen, um eine präzisere
Einschätzung
der Gefühlslage
eines Sprechers zu erzielen. Die genannten Komponenten werden aus
diesem Grund oftmals kompensatorisch zur Analyse der Formant-Frequenzen
verwendet, wie sie vorstehend näher
beschrieben wurde.
-
Um
nun die mit den vorstehend beschriebenen Verfahren (d.h. der Spektrums-
oder Spektralalanalyse sowie der semi-spektralen bzw. non-spektralen Analyse)
erhaltenen Analyseergebnisse zu verarbeiten, um hieraus eine Emotion
des Sprachsignals zu erkennen, werden oftmals neuronale Netze eingesetzt.
Neuronale Netze sind ein technischer Ansatz, der bei heuristischer
Problemlösung
oder vorzüglich bei
Realisierung eines impliziten Mechanismus eingesetzt wird. Die Grundidee
liegt darin, dass man auf eine Flowchart-Logik oder deterministische Algorithmen
verzichtet und ein System selber die Lösung finden lässt. Das
Vorbild dieses Ansatzes ist das Nervensystem.
-
Dabei
wird die Informationsverarbeitung in die nachstehend näher aufgeführten zwei
Untergruppen untergliedert. Die eine Untergruppe umfasst die Sensorik
(= Input; afferentes Signal), wobei die andere Untergruppe die Motorik
(= Output; efferentes Signal) ist. Unter dem Begriff „Sensorik" versteht man die
Informationsverarbeitung, die mit Hilfe von Sensoren/Sinnesorganen
stattfindet. Über
diesen Weg sammelt ein System Informationen aus der Umwelt. Dies
stellt also die Eingänge
der Information ins System dar. Die Untergruppe der Motorik ist
dagegen für eine
Informationsverarbeitung verantwortlich, in der eine Lösung gefunden
wird und nach außen
weitergegeben wird.
-
Ein
derartiger Zusammenhang ist in 5A dargestellt,
in der ein neuronales Netz 500 eine Eingangsnetzwerkschicht 502 mit
mehreren Eingangsneuroiden 504, eine versteckte (= verborgene)
Netzwerkschicht 506 mit mehreren versteckten Neuroiden 508 sowie
eine Ausgangsnetzwerkschicht 510 mit mehreren Ausgangsneuroiden 512 umfasst.
Die einzelnen Neuroiden der verschiedenen Netzwerkschichten (d.
h. der Eingangsnetzwerkschicht 502, der versteckten Netzwerkschicht 506 sowie
der Ausgangsnetzwerkschicht 510) sind durch Verknüpfungen 514 miteinander
verknüpft,
wobei die einzelnen Verknüpfungen
durch unterschiedliche Gewichtungsfaktoren oder Verarbeitungsalgorithmen
beschrieben werden können.
Wird nun an die Neuroiden 504 der Eingangsnetzwerkschicht 502 eine
Eingabe 516 angelegt, erfolgt durch das neuronale Netz 500 eine Verarbeitung
derart, dass die Eingabe 516 in einer Ausgabe 518 resultiert,
die von den Neuroiden 512 der Ausgangsnetzwerkschicht 510 bereitgestellt wird.
Weiterhin wird aus 5A ersichtlich, dass zwischen
dem Input des neuronalen Netzes 500 (d. h. der Eingangsnetzwerkschicht 502)
und dem Output des neuronalen Netzes 500 (d. h. der Ausgangsnetzwerkschicht 510)
eine (oder auch mehrere) weitere Schicht(en) (d.h. entsprechende
weitere versteckte Schichten wie die versteckte Schicht 506)
einlegen. Dadurch wächst
zwar die Komplexität
der Struktur, aber die neuronalen Netze sind dann zur Lösung einer
Aufgabe einer (mathematisch) höheren
Dimension fähig.
-
Neben
der in 5A dargestellten Struktur eines
neuronalen Netzes als Feed-Forward-Netzstruktur (= Feed-forward-Netz) als allgemeine
Struktur existiert weiterhin eine Netzstruktur, die als rekurrentes
Netz bezeichnet wird und in 5B dargestellt
ist. Im Unterschied zu dem in 5A dargestellten
Feed-Forward-Netz sind nunmehr im rekurrenten Netz die Ausgänge direkt
mit den Eingängen
rückgekoppelt.
-
Seitdem
das Forschungsgebiet der neuronalen Netze (d.h. der künstlichen
Intelligenz) in den 60er Jahren des letzten Jahrhunderts begann,
sind verschiedenste architektonische Strukturen dieser Netze vorgeschlagen
worden. Insbesondere die Self-Organizing-Map SOM (= selbstorganisierende Karte),
wie sie in 6 dargestellt ist, und das rekurrente
Netz, wie es in 5B dargestellt ist, sind von besonderem
Interesse. Unabhängig
von der Struktur des neuronalen Netzes ist es allen neuronalen Netzen
gemeinsam, dass dieselben aus Neuronen bzw. Neuroiden (Knoten) bestehen
und jedes Neuron ein Gewicht enthält. Das Gewicht ist dabei ein
Maßstab, wie
wichtig ein Neuron für
den nächsten
Schritt ist. Das Gewicht symbolisiert somit die Verbindungsstärke zwischen
den einzelnen Neuronen im „Nervensystem".
-
Die
SOM (Self-Organizing-Map) ist ein biologisch plausibles Modell.
Der Input-Raum (= Input-Space) X ist in
6 als ein
kontinuierlicher Raum dargestellt. Die Punkte
602 in diesem
Input-Raum X werden als Input ins Netz
609, das rechts
in
6 dargestellt ist, eingefüttert. Mit der Zeit bildet
das Netz bzw. die Neuronen oder Neuroiden die Ordnung/Mannigfaltigkeit
des Inputraums implizit in Gewichten der Neuronen ab. Hierbei kennzeichnet
die Variable a* ein Neuron, die Variable W
a* das
Gewicht des Neurons a* und die Variable X den Input-Space. Ein Input
x aktiviert eine bestimmte Gruppe von Neuronen. Das zentrale Neuron,
das für die
nachfolgende Informationsverarbeitung den Hauptbeitrag liefert,
wird nach dem folgenden Prinzip ausgewählt:
-
Das
Gewicht der Neuronen wird anfangs mathematisch zufällig verteilt.
Ein iteratives Lernen mit Daten bringt dann das Netz irgendwann
zu einem „Equilibrium". Wenn ein Equilibrium
erreicht ist, dann bedeutet dies, dass das neuronale Netz in der
Lage ist, das vorgegebene Problem zu lösen.
-
Hat
ein Netz mit bestimmter Topologie eine Lösung gefunden, dann heißt es, dass
das Netz eine Lösung
nicht algorithmisch darstellt, sondern implizit in Gewichten von
Neuronen enthält.
Diese Gewichte sind mathematisch als eine Matrix formulierbar, deren
Elemente aus jeweiligen Gewichten besteht. Es ist hierbei jedoch
anzumerken, dass die Verknüpfung der
einzelnen Neuroiden, wie sie in 5A unter dem
Bezugszeichen 519 dargestellt ist, durch einen mathematischen
Zusammenhang, d. h. eine Verarbeitungsvorschrift, gekennzeichnet
ist. Durch die Vielzahl von (zum Teil mathematisch unterschiedlichen)
Verknüpfungsvorschriften 514 (wie
beispielsweise linearen oder quadratischen Zusammenhängen) lässt sich
eine Ausgabe des neuronalen Netzes jedoch aufgrund der Komplexität des neuronalen Netzes
nicht als einfacher deterministischer Algorithmus beschreiben. Hierbei
ist zu beachten, dass die Verknüpfungsvorschriften
zumeist nicht-linear gewählt
werden, da ansonsten die Gewichte der einzelnen Neuroiden unendlich
wachsen könnten.
Die Gewichte werden daher zumeist durch eine bestimmte Schwellenfunktion
oder durch eine Normierung in einem bestimmten Bereich gehalten.
-
Ausgehend
von diesen grundsätzlichen
Methoden und Verfahren zum Analysieren eines Sprachsignals sind
im Stand der Technik bereits einige Ansätze zur Erkennung einer Emotion
in einem Sprachsignal vorgeschlagen worden.
-
So
schlägt
beispielsweise die Schrift
US 6480826
B2 einen Ansatz vor, aus der Stimme verschiedene Parameter
wie Vokalenergie, Frequenzspektrumsmerkmale, Formanten oder zeitliche
Merkmale wie Sprachrate und Sprachpausen zu extrahieren, um ausgehend
durch eine Trainingssequenz ein neuronales Netz derart zu trainieren,
dass es in der Lage ist, emotionale Kategorien wie den Normalzustand,
den Glückszustand,
einen Ärger-Zustand,
einen Traurigkeitszustand oder einen Angstzustand zu erkennen. Dieses
System kann in Telefonzentren als Emotionsberater oder als Warneinrichtung
für Geschäftstreffen
eingesetzt werden. Nachteilhaft bei dem in Schrift
US 6480826 B2 vorgeschlagenen
Ansatz ist jedoch, dass das System und das Verfahren nicht für einzelne
Sprecher individuell konfigurierbar ist und weiterhin eine lange
Trainingszeit braucht.
-
Weiterhin
wurde in der Schrift
US
6219657 B1 vorgeschlagen, ein neuronales Netz mit Sprachinformationen
aus einem Mikrophon zu füttern,
wobei insbesondere die Lautstärke
der Stimme und die Sprachintervalle für die Verarbeitung in einem
neuronalen Netz zur Erkennung von Freude, Ärger, Traurigkeit und Überraschung
herangezogen werden können.
Dadurch, dass auf die Auswertung von Frequenzanteilen der Stimme
verzichtet wird, ist jedoch lediglich eine suboptimale Erkennung
von Emotionszuständen
möglich,
da gerade in verschiedenen Frequenzanteilen deutliche Hinweise auf
den Emotionszustand enthalten sind. Hierbei ist anzumerken, dass zumeist
in herkömmlichen
neuronalen Netzen, die für eine
Sprachanalyse verwendet werden, eine Netztopologie in der Form eines „feed-forward"-Netzes ausgebildet
ist.
-
Weiterhin
wird in der Schrift
EP
1318505 A1 vorgeschlagen, ein Sprachsignal zuerst nach
verschiedenen Charakteristika wie beispielsweise Frequenzkomponenten,
Phonem-Segmenten oder Wortsegmenten zu analysieren und diese nachfolgend
anhand eines Emotionsmusters aus einer Datenbasis zur Erkennung
der derzeitigen Emotion des Sprechers zu erkennen. Ein derartiges
Verfahren weist jedoch den Nachteil auf, dass immer eine (teils umfangreiche)
Datenbank zur Verfügung
stehen muss, wodurch ein derartiges System nicht speichereffizient
und somit kostengünstig
realisierbar ist.
-
Weiterhin
wird in der Schrift
EP
1256937 A2 vorgeschlagen, ein Sprachsignal zunächst durch
einen Tiefpass zu filtern und nachfolgend aus dem Originalsignal
und dem tiefpassgefilterten Signal einzelne Merkmale wie beispielsweise
Spektralmerkmale, Varianzen, Mittelwerte, Maxima und Minima und ähnliches
zu extrahieren und diese durch eine Emotionserkennungseinheit auf
eine in dem Sprachsignal enthaltene Emotion hin zu überprüfen. Die
Emotionserkennungseinheit kann hierbei unterschiedlich ausgestaltet
sein, wobei auch ein neuronales Netz als Ausgestaltungsform der
Emotionserkennungseinheit möglich
ist. In der Schrift
EP
1256937 A2 kann diese Emotionserkennungseinheit entweder
off-line ausgestattet sein, wobei in dieser Offline-Ausgestaltung feste
Parameter eingestellt sind, unter deren Verwendung aus einem Sprachsignal
eine Emotion erkannt werden kann. Weiterhin ist es möglich, die
Emotionserkennung durch eine Online-Emotionserkennungseinheit durchführen zu
lassen, die mit einer Datenbasis und einem Lernalgorithmus an persönliche Sprachcharakteristikmerkmale
eines Sprechers angepasst werden kann. Hierbei bietet sich zwar
der Vorteil, dass bereits eine Anpassung an individuelle Sprachmerkmale
eines Sprechers möglich
ist, und somit eine exaktere Bestimmung der Emotion aus einem Sprachsignal
erfolgen kann, dadurch, dass jedoch entweder die Offline-Emotionserkennung
oder die Online-Emotionserkennung aktiviert ist, muss bei der sprecherindividuellen
Emotionserkennung zunächst
ein zeitaufwendiges Training des in der Emotionserkennungseinheit
ausgeführten
Emotionserkennungsalgorithmus an den Sprecher erfolgen. Dies kann
mitunter sehr zeitaufwendig sein und somit die Einsetzbarkeit des
in Schrift
EP 1256937
A2 dargestellten Ansatzes behindern.
-
Die
US 2003/0028384 A1 zeigt ein Verfahren zum Erkennen von Emotionen
aus Sprache unter Verwendung einer Sprecheridentifikation. Hierzu
wird zunächst
aus einem empfangenen Spracheingangssignal ein Sprecher identifiziert.
Hieran anschließend erfolgt
ein Abgleich mit einer Datenbank, ob bezüglich des identifizierten Sprechers
Emotionserkennungsdaten für
diesen identifizierten Sprecher in der Datenbank vorliegen. Liegen
solche Emotionserkennungsdaten in der Datenbank für den identifizierten Sprecher
vor, wird zur Erkennung einer Emotion des identifizierten Sprechers
eine Sprecher-spezifische Emotionserkennungseinrichtung zum Erkennen
einer Emotion aus dem Sprachsignal verwendet. Ergibt die Identifizierung
des Sprechers und der nachfolgende Abgleich mit der Datenbank das
Ergebnis, dass für
den identifizierten Sprecher noch keine Emotionserkennungsdaten
in der Datenbank vorliegen (das bedeutet, dass für den identifizierten Sprecher
noch keine Sprecher-spezifische Emotionserkennungseinrichtung trainiert
wurde), wird zur Erkennung einer Emotion dieses Sprechers eine Sprecherunabhängige Emotionserkennungseinrichtung
(beispielsweise mit einer Emotionserkennungsstandardeinstellung)
verwendet. Aus der Sprecher-spezifischen oder alternativ der Sprecher-unabhängigen Emotionserkennungseinrichtung
werden dann aus den erhaltenen Daten der bzw. die emotionalen Zustände des
Sprechers abgeleitet.
-
Ausgehend
von diesem Stand der Technik liegt der vorliegenden Erfindung die
Aufgabe zugrunde, eine Vorrichtung zum Erkennen einer in einem Sprachsignal
enthaltenen Emotion und ein Verfahren zum Erkennen einer in einem
Sprachsignal enthaltenen Emotion zu schaffen, welche die Möglichkeit
bieten, auf einfache und zeitsparende Weise eine Emotion, die in
einem Sprachsignal enthalten ist, erkennen zu können.
-
Diese
Aufgabe wird durch eine Vorrichtung zum Erkennen einer in einem
Sprachsignal enthaltenen Emotion gemäß Anspruch 1 und einem Verfahren
zum Erkennen einer in einem Sprachsignal enthaltenen Emotion gemäß Anspruch
18 gelöst.
-
Die
vorliegende Erfindung schafft eine Vorrichtung zum Erkennen einer
in einem Sprachsignal enthaltenen Emotion mit folgendem Merkmal:
einer
Einrichtung zum Bestimmen einer Emotionsinformation aus Sprachsignalanalysewerten,
die von dem Sprachsignal abgeleitet sind, wobei die Einrichtung
zum Bestimmen folgende Merkmale umfasst:
einen ersten Funktionsblock
zum Liefern einer Ausgabe aus einem Ergebnis gemäß einer festeingestellten Verarbeitungsvorschrift,
wobei die festeingestellte Verarbeitungsvorschrift eine Emotionserkennungsstandardeinstellung
ist; und
einen zweiten Funktionsblock zum Liefern einer Ausgabe
aus einer Eingabe gemäß einer
adaptierbaren Verarbeitungsvorschrift, wobei der zweite Funktionsblock
so ausgebildet ist, dass die adaptierbare Verarbeitungsvorschrift
eine individuelle Adaption der Standardeinstellung der festeingestellten
Verarbeitungsvorschrift an ein Individuum liefert, wenn eine Adaption
mit einem Individuum ausgeführt
wird, wobei der erste Funktionsblock mit dem zweiten Funktionsblock
so gekoppelt ist, dass eine Ausgabe des ersten Funktionsblocks als
Eingabe des zweiten Funktionsblocks verwendbar ist.
-
Ferner
schafft die vorliegende Erfindung ein Verfahren zum Erkennen einer
in einem Sprachsignal enthaltenen Emotion mit folgendem Schritt:
Bestimmen
einer Emotionsinformation aus Sprachsignalanalysewerten, die von
dem Sprachsignal abgeleitet sind, wobei das Bestimmen folgende Schritte umfasst:
Liefern
einer Ausgabe aus einem Ergebnis gemäß einer festeingestellten Verarbeitungsvorschrift
in einem ersten Funktionsblock, wobei die festeingestellte Verarbeitungsvorschrift
eine Emotionserkennungsstandardeinstellung ist; und
Liefern
einer Ausgabe aus einer Eingabe gemäß einer adaptierbaren Verarbeitungsvorschrift
in einem zweiten Funktionsblock, wobei der zweite Funktionsblock
so ausgebildet ist, dass die adaptierbare Verarbeitungsvorschrift
eine individuelle Adaption der Standardeinstellung der festeingestellten
Verarbeitungsvorschrift an ein Individuum liefert, wenn eine Adaption
mit einem Individuum ausgeführt
wird, wobei der erste Funktionsblock mit dem zweiten Funktionsblock
so gekoppelt wird, dass eine Ausgabe des ersten Funktionsblocks
als Eingabe des zweiten Funktionsblocks verwendet wird.
-
Der
vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass durch
das Verwenden eines ersten Funktionsblocks und des Verwendens eines zweiten
Funktionsblocks, der mit dem ersten Funktionsblock gekoppelt ist,
eine einfache und hochgradig genaue Erkennung einer in einem Sprachsignal
enthaltenen Emotion möglich
ist. Dies resultiert insbesondere daraus, dass im ersten Funktionsblock
eine festeingestellte Verarbeitungsvorschrift implementiert ist,
die auf einer allgemein gültigen
Emotionserkennung beruht. Diese allgemeine Emotionserkennung kann
beispielsweise dadurch bereitgestellt werden, dass eine große Anzahl
von Sprechern eine Datenreferenz bereitstellen, in denen Sprachsignale
mit unterschiedlichen hinterlegten Emotionszuständen abgelegt sind. Aus dieser
Datenreferenz können
somit wesentliche Merkmale für
eine Emotion in einem Sprachsignal extrahiert werden, die somit
eine nahezu Allgemeingültigkeit
besitzen. Ist beispielsweise bei einer Verärgerung eine deutliche Frequenzverschiebung
des Grundtons der Sprache bei allen Referenzpersonen erkennbar,
kann eine derartige Frequenzverschiebung als Merkmal für eine Verärgerung
herangezogen werden, unabhängig,
wie stark eine derartige Grundverschiebung bei individuellen Sprechern
ausgebildet ist. Die festeingestellte Verarbeitungsvorschrift bietet
somit die Möglichkeit,
individuumunabhängig
eine Emotion aus dem Sprachsignal des Individuums erkennen zu können.
-
Wird
nun der zweite Funktionsblock verwendet, in dem die adaptierbare
Verarbeitungsvorschrift ausführbar
ist, kann eine Adaption der Emotionserkennung an einen individuellen
Sprecher (oder eine individuelle Sprecherin) erfolgen, so dass eine
weitere Verfeinerung der Emotionserkennung auf der Basis der festeingestellten
Verarbeitungsvorschrift des ersten Funktionsblocks möglich ist.
Dadurch, dass eine Ausgabe des ersten Funktionsblocks als Eingabe
des zweiten Funktionsblocks verwendet wird, ist somit eine derartige
Verfeinerung der Emotionserkennung möglich, so dass sich im Endeffekt
eine Emotionserkennung einer in einem Sprachsignal enthaltenen Emotion
realisieren lässt,
die individuell auf eine sprechende Person einstellbar ist.
-
Der
erfindungsgemäße Ansatz
bietet den Vorteil, dass einerseits auf einen in der Wissenschaft bekannten
Datensatz zur Erkennung von Emotionszuständen zurückgegriffen werden kann, der
nicht von einzelnen Sprechern abhängig ist, und andererseits
eine individuell anpaßbare
Emotionserkennung möglich
wird. Hierbei ist insbesondere anzumerken, dass durch die erfindungsgemäße Verkopplung
der festeingestellten Verarbeitungsvorschrift und der adaptierbaren
Verarbeitungsvorschrift eine deutlich beschleunigte Adaption, d.
h.
-
Anpassung
an die Sprachcharakteristik des individuellen Sprechers, möglich ist,
da bereits auf die Grundmuster der Emotionserkennung zurückgegriffen
werden kann. Durch den erfindungsgemäßen Ansatz ist es daher möglich, eine
Vorrichtung zum Erkennen einer in einem Sprachsignal enthaltenen Emotion
sowie ein Verfahren zum Erkennen einer in einem Sprachsignal enthaltenen
Emotion bereitzustellen, die gegenüber dem Stand der Technik ein deutlich
beschleunigtes Adaptionsverhalten an einen individuellen Sprecher
(oder eine individuelle Sprecherin) ermöglichen, wobei der erfindungsgemäße Ansatz
technisch einfach realisierbar ist, da keine Referenzdatenbasen
notwendig sind, sondern lediglich auf funktionale Zusammenhänge zurückgegriffen werden
kann, die in der festeingestellten Verarbeitungsvorschrift implementiert
werden können.
-
Gemäß einem
bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung umfasst die Vorrichtung zum Erkennen
einer in einem Sprachsignal enthaltenen Emotion ferner eine Einrichtung
zum Analysieren des Sprachsignals, um Sprachsignalanalysewerte zu
erhalten. Diese Einrichtung zum Analysieren kann beispielsweise
eine Einrichtung zum Ausführen
einer Fourier-Transformation umfassen, so dass beispielsweise aus
einem Sprachsignal in Zeitbereichsdarstellung eine Frequenzbereichsdarstellung
erzeugt wird, die als Eingabe für
den ersten Funktionsblock und/oder den zweiten Funktionsblock verwendbar
ist. Eine derartige Verwendung einer Einrichtung zum Analysieren
des Sprachsignals bietet somit den Vorteil, dass die Vorrichtung
zum Erkennen beispielsweise direkt an ein Mikrophon oder eine andere
Sprachsignalquelle anschließbar
ist, und nicht auf bereits vorbearbeitete Sprachsignalanalysewerte
zurückgreifen
braucht.
-
Ferner
kann beispielsweise der zweite Funktionsblock als neuronales Netz
implementiert sein, das ausgebildet ist, die adaptierbare Verarbeitungsvorschrift
auszuführen.
Dies bietet den Vorteil, dass bereits auf die umfangreichen Forschungsarbeiten des
Teilgebiets der künstlichen
Intelli genz zurückgegriffen
werden kann, und somit auf einfache Art und Weise eine Adaption
eines Emotionserkennungsalgorithmus an einen individuellen Sprecher
möglich ist.
-
Vorzugsweise
kann das neuronale Netz des zweiten Funktionsblocks eine Eingangsnetzschicht, eine
mit der Eingangsnetzschicht gekoppelte verborgene Netzschicht und
eine mit der verborgenen Netzschicht gekoppelte Ausgangsnetzschicht
umfassen, wobei die Ausgabe des ersten Funktionsblocks als Eingabe
der verbogenen Netzschicht verwendbar ist. Dies bietet den Vorteil,
dass bei einem Betrieb der Vorrichtung zum Erkennen einer in einem
Sprachsignal enthaltenen Emotion ein Ergebnis der festeingestellten
Verarbeitungsvorschrift direkt in eine Verarbeitung mit der adaptierbaren
Verarbeitungsvorschrift berücksichtigt
werden kann, ohne dass beispielsweise eine an der Eingangsnetzschicht
anliegende Eingabe verzerrt wird. Durch die Eingabe des Ergebnisses
des ersten Funktionsblocks (d. h. der Ausgabe des ersten Funktionsblocks)
in die verborgene Netzschicht wird somit erreicht, dass die Ausgabe
des neuronalen Netzes des zweiten Funktionsblocks in wesentlichem
Maße durch
eine Ausgabe des ersten Funktionsblocks beeinflußt wird.
-
Hierdurch
ergibt sich wiederum der vorstehend angeführte Vorteil, einer individuell
an einen Sprecher adaptierbaren Sprachcharakteristik.
-
Gemäß einem
weiteren Aspekt der vorliegenden Erfindung ist die Ausgangsnetzschicht
des neuronalen Netzes des zweiten Funktionsblocks mit der Eingangsnetzschicht
des neuronalen Netzes des zweiten Funktionsblocks gekoppelt, derart,
dass eine Ausgabe der Ausgangsnetzschicht als Eingabe der Eingangsnetzschicht
verwendbar ist. Durch ein derartiges Verkoppeln der Ausgangsnetzschicht
mit der Eingangsnetzschicht lässt
sich somit ein rekurrentes neuronales Netz herstellen, das in der
Lage ist, eine adaptierbare Verarbeitungsvorschrift mit einer höheren Komplexität zu bewältigen,
als dies ein neuronales Netz in Feed-Forward- Struktur ermöglicht. Hierdurch ergibt sich
der Vorteil, dass durch eine einfache Verkopplung der einzelnen
Netzschichten des neuronalen Netzes eine deutliche Erhöhung der
verarbeitbaren Komplexität
möglich
ist.
-
Gemäß einem
weiteren Aspekt der vorliegenden Erfindung können die Sprachsignalanalysewerte
zumindest teilweise als Eingabe des zweiten Funktionsblocks verwendet
werden. Dies bietet den Vorteil, dass beispielsweise auch im ersten
Funktionsblock nicht benötigte
Informationen aus den Sprachsignalanalysewerten (beispielsweise
höheren Formant-Frequenzen) verwendet
werden, indem beispielsweise der im ersten Funktionsblock nicht
benötigte
Anteil der Sprachsignalanalysewerte im zweiten Funktionsblock verwendet
wird und somit möglichst die
vollständige,
in dem Sprachsignal enthaltene Emotion, verwendet werden kann.
-
Gemäß einem
weiteren Aspekt der vorliegenden Erfindung ist der zweite Funktionsblock
ausgebildet, um ansprechend auf ein Haltesignal eine Adaption der
adaptierbaren Verarbeitungsvorschrift zu verhindern. Dies bietet
den Vorteil, dass beispielsweise nach einem erfolgten Training der
adaptierbaren Verarbeitungsvorschrift an eine Sprachcharakteristik
eines Individuums das Adaptieren der adaptierbaren Verarbeitungsvorschrift
abgeschaltet werden kann und somit durch das Vermeiden des kontinuierlichen
Trainings eine deutliche Beschleunigung der Signalverarbeitung im
zweiten Funktionsblock möglich
ist.
-
Gemäß einem
weiteren Aspekt der vorliegenden Erfindung können die Sprachsignalanalysewerte
zumindest teilweise als Eingabe des ersten Funktionsblocks verwendet
werden. Hierdurch bietet sich die Möglichkeit, beispielsweise nur
einzelne, für eine
sprecherunabhängige
Emotionserkennung notwendige charakteristische Merkmale in dem Sprachsignal
im ersten Funktionsblock zu verarbeiten. Durch eine derartige exemplarische
Beschränkung auf
wesentliche, für
die personenunabhängige
Emotionserkennung notwendige Merkmale lässt sich ferner eine weitere
Reduzierung der Komplexität
für eine
Bearbeitung der festeinstellbaren Verarbeitungsvorschrift im ersten
Funktionsblock realisieren.
-
Gemäß einem
weiteren Aspekt der vorliegenden Erfindung kann der erste Funktionsblock
als ein neuronales Netz ausgebildet sein, das ausgebildet ist, um
die festeinstellbare Verarbeitungsvorschrift auszuführen. Vorzugsweise
kann das neuronale Netz des ersten Funktionsblocks eine selbstorganisierende
Karte sein. Hierdurch bietet sich die Möglichkeit, unter Ausnutzung
der Erkenntnisse aus dem Teilgebiet der künstlichen Intelligenz, insbesondere
dem Teilgebiet der neuronalen Netze, eine Implementierung einer
Emotionserkennung zu ermöglichen,
die eine ausreichende Möglichkeit
bietet, eine Grobklassifikation der in einem Sprachsignal enthaltenen
Emotion vornehmen zu können.
Insbesondere durch die Wahl des neuronalen Netzes als selbstorganisierende
Karte ist es möglich,
eine strukturell einfache Emotionserkennungseinrichtung zu realisieren.
-
Gemäß einem
weiteren Aspekt der vorliegenden Erfindung ist die Emotionsinformation
teilweise aus der Ausgabe des ersten Funktionsblocks bestimmbar.
Dies bietet die Möglichkeit,
bereits ein erstes Grobergebnis über
eine zu erwartende Emotion aus dem ersten Funktionsblock zu erhalten
und somit bereits eine schnell verfügbare Vorabinformation über die
zu erwartende Emotionsinformation zu erhalten.
-
Gemäß einem
weiteren Aspekt der vorliegenden Erfindung umfasst das neuronale
Netz des ersten Funktionsblocks eine Mehrzahl von Neuroiden, wobei
eine Verknüpfung
der Neuroiden von einer Sprachcharakteristik einer Mehrzahl von
Individuen abhängig
ist. Unter Ausnutzung der beispielsweise in Laborversuchen erstellten
Zusammenhänge zwischen
einer Emotion und einer Sprechcharakteristik, wobei die Zusammenhänge allgemeingültig sind,
lässt sich
somit die Verknüpfung
von den Neuroiden bereits beispielsweise werksseitig einstellen. Hierdurch
lässt sich
vorteilhaft die Verknüpfung
der Neuroiden derart einstellen, dass bereits eine Grobinformation über die
Emotionsinformation erhalten werden kann, bevor die Vorrichtung
an eine Person adaptiert wurde.
-
Gemäß einem
weiteren Aspekt der vorliegenden Erfindung umfasst die Vorrichtung
zum Erkennen einer in einem Sprachsignal enthaltenen Emotion eine
Einrichtung zum Zuordnen der Emotionsinformation zu einem vordefinierten
Emotionstyp. Der Emotionstyp kann beispielsweise ein Emotionszustand
wie Glücklichkeit,
Traurigkeit, Ärger
oder ähnliches
sein. Ist die Emotionsinformation beispielsweise ein Zahlenwert,
kann durch die Einrichtung zum Zuordnen der Emotionsinformation
dieser Zahlenwert zu dem vordefinierten Emotionstyp zugeordnet werden.
Hierdurch bietet sich dem Nutzer einer derartigen Vorrichtung der
Vorteil, beispielsweise auf einer Skala eines Anzeigegerätes direkt
den Emotionszustand und die Intensität des Emotionszustands ablesen
zu können.
-
Gemäß einem
weiteren Aspekt der vorliegenden Erfindung kann die Einrichtung
zum Zuordnen ausgebildet sein, um eine Ausgabe des ersten Funktionsblocks
und eine Ausgabe des zweiten Funktionsblocks zum Zuordnen der Emotionsinformation
zu dem vordefinierten Emotionstyp zu verwenden. Hierdurch bietet
sich der Vorteil, die Ausgaben des ersten Funktionsblocks und des
zweiten Funktionsblocks zum Bereitstellen der Emotionsinformation
zu verwenden, und hierdurch eine hochpräzise Aussage über den
Emotionszustand des Sprechers des Sprachsignals bereitzustellen.
-
Gemäß einem
weiteren Aspekt der vorliegenden Erfindung kann das neuronale Netz
des zweiten Funktionsblocks in das neuronale Netz des ersten Funktionsblocks
eingebettet sein. Dies bietet den Vorteil, durch eine variable Verknüpfung von Neuroiden
des ersten Netzes mit Neuroiden des zweiten Netzes den erfindungsgemäßen Ansatz
in platzsparender Weise umzusetzen. Dies kann beispielsweise dadurch
realisiert werden, dass einzelne Neuroiden des neuronalen Netzes
durch die festeinstellbare Verarbeitungsvorschrift miteinander verknüpft sind
und somit das neuronale Netz des ersten Funktionsblocks bilden,
während
andere Neuroiden des neuronalen Netzes in adaptierbarer Weise miteinander
verknüpft
sind und somit das neuronale Netz des zweiten Funktionsblocks bilden.
Hierbei können
die einzelnen Neuroiden der neuronalen Netze des ersten und zweiten
Funktionsblocks jedoch auch in physikalischer Sicht nebeneinander
benachbart sein, wodurch sich dann sagen lässt, dass das neuronale Netz
des zweiten Funktionsblocks in das neuronale Netz des ersten Funktionsblocks
eingebettet ist. Wesentlich ist hierbei lediglich die Ausgestaltung
der Verknüpfungen
der einzelnen Neuroiden, um die festeinstellbare sowie die adaptierbare Verarbeitungsvorschrift
auszubilden.
-
Ein
bevorzugtes Ausführungsbeispiel
der vorliegenden Erfindung wird nachfolgend anhand der beiliegenden
Zeichnungen näher
erläutert.
Es zeigen:
-
1 ein
Blockschaltbild eines Ausführungsbeispiels
der erfindungsgemäßen Vorrichtung zum
Erkennen einer in einem Sprachsignal enthaltenen Emotion;
-
2 eine
schematische Darstellung einer Ausführungsreihenfolge des erfindungsgemäßen Verfahrens
gemäß einem
bevorzugten Ausführungsbeispiel;
-
3A und 3B zwei
unterschiedliche Darstellungen eines struk turell gleichen rekurrenten neuronalen
Netzes;
-
4 ein
Diagramm, in dem exemplarisch das Ergebnis einer Spektralanalyse
von in einem Sprachsignal auftretenden Frequenzen dargestellt sind;
-
5A und 5B zwei
Darstellungen von strukturell unterschiedli chen neuronalen Netzen; und
-
6 eine
Darstellung eines neuronalen Netzes als selbstorganisierende Karte.
-
In
der nachfolgenden Beschreibung der bevorzugten Ausführungsbeispiele
der vorliegenden Erfindung werden für die in den verschiedenen
Zeichnungen dargestellten und ähnlich
wirkenden Elemente gleiche oder ähnliche
Bezugszeichen verwendet, wobei auf eine wiederholte Beschreibung
dieser Elemente verzichtet wird.
-
1 zeigt
ein Blockschaltbild eines Ausführungsbeispiels
der erfindungsgemäßen Vorrichtung zum
Erkennen einer in einem Sprachsignal enthaltenen Emotion. Die erfindungsgemäße Vorrichtung kann
hierbei eine Einrichtung zum Analysieren des Sprachsignals 102,
eine Einrichtung zum Bestimmen einer Emotionsinformation 104 und
eine Einrichtung zum Zuordnen der Emotionsinformation 106 umfassen.
Die Einrichtung zum Bestimmen einer Emotionsinformation 104 kann
ferner einen ersten Funktionsblock 108 und einen zweiten
Funktionsblock 110 umfassen, wobei der erste Funktionsblock
ausgebildet ist, um eine festeingestellte Verarbeitungsvorschrift
abzuarbeiten und der zweite Funktionsblock 110 ausgebildet
ist, eine adaptierbare Verarbeitungsvorschrift abzuarbeiten. Die
Einrichtung zum Analysieren des Sprachsignals 102 umfasst
einen Eingang zum Empfangen eines Sprachsignals und einen Ausgang
zum Ausgeben von Sprachsignalanalysewerten. Die Einrichtung zum
Bestimmen einer Emotionsinformation 104 umfasst einen Eingang
zum Empfangen der Sprachsignalanalysewerte von der Einrichtung zum
Analysieren des Sprachsignals 102 und einen Ausgang zum
Ausgeben einer Emotionsinformation. Die Einrichtung zum Zuordnen
der Emotionsinformation 106 umfasst einen Eingang zum Empfangen
der Emotionsinformation von der Einrichtung 104 zu Bestimmen
der Emotionsinformation und einen Ausgang zum Darstellen der Emotion.
Ferner umfasst der erste Funktionsblock 108 der Einrichtung zum
Bestimmen einer Emotionsinformation 104 einen Eingang IN1
zum Empfangen von Eingangswerten und einen Ausgang OUT1 zum Ausgeben
einer Ausgabe des ersten Funktionsblocks. Der zweite Funktionsblock 110 umfasst
einen ersten Eingang zum Empfangen der Ausgabe des ersten Funktionsblocks 108,
wobei der erste Eingang des zweiten Funktionsblocks 110 mit
dem Ausgang OUT1 des ersten Funktionsblocks 108 verbunden
ist.
-
Ferner
umfasst der zweite Funktionsblock 110 einen zweiten Eingang
IN2 zum Empfangen einer weiteren Eingabe in den zweiten Funktionsblock 110.
Weiterhin umfasst der zweite Funktionsblock 110 einen Ausgang
OUT2 zum Ausgeben einer Ausgabe des zweiten Funktionsblocks 110.
Weiterhin sind der Eingang IN1 des ersten Funktionsblocks 108 und
der zweite Eingang IN2 des zweiten Funktionsblocks 110 mit
dem Eingang der Einrichtung zum Bestimmen einer Emotionsinformation 104 verbunden. Außerdem sind
der Ausgang OUT1 des ersten Funktionsblocks 108 und der
Ausgang OUT2 des zweiten Funktionsblocks 110 mit dem Ausgang
der Einrichtung zum Bestimmen einer Emotionsinformation 104 verbunden.
-
Wird
nun ein Sprachsignal, das beispielsweise durch ein Mikrophon bereitgestellt
werden kann, an den Eingang der Einrichtung zum Analysieren des Sprachsignals 102 angelegt,
kann die Einrichtung zum Analysieren des Sprachsignals aus dem Sprachsignal
Sprachsignalanalysewerte extrahieren und diese am Ausgang der Einrichtung
zum Analysieren des Sprachsignals 102 ausgeben. Die Sprachsignalanalysewerte
können
beispielsweise eine Information über
den Anteil von einzelnen Frequenzen in dem Sprachsignal sein. Diese
Sprachsignalanalysewerte lassen sich dann beispielsweise durch eine Digitalisierung
des vom Mikrofon empfangenen Sprachsignals und eine nachfolgende
Fourier-Transformation des Sprachsignals erhalten. Weiterhin kann
ein Teil der Sprachsignalanalysewerte (beispielsweise die Amplituden
der niedrigeren Frequenzhälfte
der Sprachsignalanalysewerte) über
den Eingang IN1 dem ersten Funktionsblock 108 mit der festeingestellten
Verarbeitungsvorschrift zugeführt werden.
Weiterhin kann die aus dem ersten Funktionsblock 108 resultierende
Ausgabe über
dessen Ausgang OUT1 in den zweiten Funktionsblock 110 mittels
dessen ersten Eingang eingespeist werden. Neben der Ausgabe des
ersten Funktionsblocks 108 kann der zweite Funktionsblock 110 beispielsweise mit
einem Teil der Sprachsignalanalysewerte (beispielsweise den Amplitudenwerten
der höheren
Frequenzhälfte
der Sprachsignalanalysewerte) beaufschlagt werden, die an dem zweiten
Eingang IN2 des zweiten Funktionsblocks 110 angelegt werden.
Der zweite Funktionsblock 110 kann hierbei aus der über den
ersten Eingang zugeführten
Ausgabe des ersten Funktionsblocks 108 und dem am zweiten
Eingang IN2 anliegenden Teil der Signalanalysewerte nunmehr eine
Adaption an eine individuelle Sprachcharakteristik einer Person
ausführen
und ein Ergebnis der ausgeführten
adaptierbaren Verarbeitungsvorschrift an dem Ausgang OUT2 des zweiten
Funktionsblocks 110 ausgeben.
-
Die
in 1 dargestellte Emotionsinformation, die von der
Einrichtung zum Bestimmen einer Emotionsinformation 104 ausgegeben
wird, kann dabei einen ersten Anteil 112 umfassen, der
von der Ausgabe des ersten Funktionsblocks 108 abhängig ist,
und einen zweiten Anteil 114 umfassen, der von der Ausgabe
des zweiten Funktionsblocks 110 abhängig ist. Die derart zusammengesetzte
Emotionsinformation kann nachfolgend durch die Einrichtung zum Zuordnen
der Emotionsinformation 106 einem vordefinierten Emotionszustand,
beispielsweise einer Traurigkeit, einem Angstzustand oder einem Glückszustand
des Sprechers des Sprachsignals zugeordnet werden und beispielsweise
an einer Ausgabeeinheit dargestellt werden.
-
2 zeigt
eine schematische Darstellung eines Ausführungsbeispiels des erfindungsgemäßen Verfahrens. 2 zeigt
dabei schematisch, wie die Parametrisierung der Emotion aus der
Stimme technisch zustande kommt. Die in 2 dargestellten technischen
Schritte werden im folgenden genauer beschrieben.
-
Zuerst
wird dem Verfahren ein akustisches Signal (Stimme) zugeführt, das
aus mehreren Frequenzen besteht. Dies erfolgt in dem ersten Schritt, der
in 2 als Input bezeichnet wird und beispielsweise
in einem Voice-Kollektor erfolgen kann. Das akustische Signal wird
nachfolgend zunächst
in die einzelnen Frequenzen unter Verwendung von geeigneten mathematischen
Verfahren (z. B. FFT = Fast Fourier-Transformation oder Wavelet-Transformation)
zerlegt. Anschließend
werden die Formant-Frequenzen daraus extrahiert. Dies erfolgt vorzugsweise im
in 2 dargestellten Schritt der Formant-Analyse/FFT.
Da Formant-Frequenzen,
z. B. Resonanzbereiche, beim Menschen relativ gut bekannt sind und hierbei
die semantische Verarbeitung wie Sprach-/Worterkennung nicht in
Frage kommt, kann man das Frequenzbündel, das sich aus der exemplarisch
gewählten
FFT ergibt, ohne aufwendiges Verfahren direkt als Eingang für die nachfolgenden Schritte
verwenden. Eine Filterung bzw. Extraktion von einzelnen Frequenzen
unter Unterdrückung
beispielsweise der niedrigeren Frequenzen kann somit entfallen.
Durch ein derartiges Vorgehen wird das zentrale Interesse des vorliegenden
Ansatzes im Bereich der höheren
Frequenzen (d.h. der für
die Stimmfarbe relevanten Frequenzen) untermauert.
-
Die
mit Hilfe der FFT zerlegten Frequenzen können zunächst in verschiedene Gruppen
unterteilt werden, die jeweils einen bestimmten Frequenzbereich
(Bündel
von mehreren Nachbarfrequenzen) beinhalten. Diese Gruppen werden
dann als Eingänge für das neuronale
Netz eingesetzt.
-
Als
dritter Schritt werden die neuronalen Netze (d. h. die künstliche
Intelligenz) miteinander vernetzt, derart, dass beispielsweise der
erste Funktionsblock als selbstorganisierende Karte (SOM) und der
zweite Funktionsblock als rekurrentes neuronales Netz ausgebildet
und miteinander vernetzt werden. Hierbei wird der als SOM ausgebildete
erste Funktionsblock als „Frontend"-Netz ausgebildet,
in das einzelne Frequenzbündel
direkt eingefüttert
werden.
-
Dies
soll dann eine interne Topologie anhand von zur Verfügung gestellten
Informationen (hier die Formanten) organisieren und die implizite
Ordnung der Frequenzen in die Metaebene (Gewichte der Neuronen)
projizieren. Die selbstorganisierende Karte (SOM) hat dabei einen
Vorteil, dass das Lernen nicht „reinforced" ist, d. h. dass
die Ordnung selbst aus den eingegebenen Baten gebildet wird. Eine Vielzahl
von Eingängen/Daten
ist jedoch notwendig, um eine gute interne Topologie auszubilden,
was dank des Frequenzprofils bei der Stimme nicht problematisch
ist. Wenn die SOM ein ausgeglichenes „Plateau" (= Equilibrium) erreicht hat, dann
heißt dies,
dass sich der Input-Space (= Eingangsraum) im neuronalen Netz eingebettet
hat. Dies kann durch eine dem Fachmann bekannte sogenannte Energiefunktion überprüft werden.
-
Das
rekurrente Netz ist mathematisch gesehen ein iteratives Verfahren.
Die 3A und 3B verdeutlichen
diesen Zusammenhang. Diese Figuren sind zwei unterschiedliche Darstellungen
eines strukturell gleichen rekurrenten Netzes. Die 3A entspricht
hierbei der 5B. Insbesondere umfasst das
rekurrente Netz aus 3A wiederum eine Eingangsnetzwerkschicht 502 mit
Eingangsneuroiden 504, eine versteckte Schicht 506 mit
versteckten Neuroiden 508 sowie eine Ausgangsschicht 510 mit Ausgangsneuroiden 512.
Da, wie in 3A ersichtlich ist, die Ausgänge, d.
h. die Ausgangsneuroiden 512, mit den Eingängen, d.
h. den Eingangsneuroiden 504, direkt verbunden sind, kann
dieses Netz umformuliert werden und gemäß der Darstellung in 3B wiedergegeben
werden. Hierbei fallen die Eingangsneuroiden 504 mit den
Ausgangsneuroiden 512 zusammen, so dass sich die in 3B dargestellte
Struktur ergibt. Die Eingangsneuroiden bzw. Ausgangsneuroiden 512 sind
somit lediglich mit den versteckten Neuroiden 508 der versteckten
Schicht 506 verbunden. Gemäß dem in 2 dargestellten Ausführungsbeispiel
des erfindungsgemäßen Verfahrens
wird die versteckte Schicht (d. h. die Neuroiden der versteckten
Schicht 508) mit der SOM verbunden. Hierdurch ist sicherge stellt,
dass die in 2 dargestellten beiden neuronalen
Netze in Form der SOM (obere Darstellung in der Spalte der neuronalen
Netze) und in der Form des rekurrenten Netzes (untere Darstellung
der Spalte der neuronalen Netze aus 2) implementiert
werden können.
-
Eine
weitere Eigenschaft des rekurrenten neuronalen Netzes ist, dass
durch die nichtlineare Eigenschaft des Netzes ein unendliches Wachstum verhindert
wird. Wie in 3A zu sehen ist, werden die
Ausgänge
aus dem Netz wieder als Eingänge
genutzt. Dies zeigt trotzdem kein deterministisches Verhalten, weil
das Netz aus mehreren untereinander vernetzten Knoten/Schichten
besteht.
-
In
einem weiteren Schritt können
die in der 2 aus der künstlichen Intelligenz erhaltenen
Parameter in zwei Kategorien aufgeteilt werden. Die Parameter stellen
hierbei eine Gewichtsmatrix von neuronalen Netzen dar. Zunächst ist
ein „globaler" Parameter zu nennen,
der die Gewichtsmatrix der SOM darstellt. Dieser „globale" Parameter ist in 2 in der
Parametrisierungsspalte (letzte Spalte) als obere globale Matrix
zu erkennen. Diese Matrix ist nicht personenspezifisch und soll
sich wie eine globale Konstante verhalten. Hieraus wird ersichtlich,
dass in der globalen Matrix bereits Zusammenhänge implementiert sind, die
einer Emotionsstandardeinstellung entsprechen. Der andere Parameter
ist ein „lokaler" Parameter. Der lokale
Parameter ist die Gewichtsmatrix des rekurrenten Netzes, wie sie
in 2 in der Spalte Parametrisierung als lokale Matrix
gekennzeichnet ist. Diese Matrix soll die weitere Änderung/Anpassung
(z.B. additiv oder subtraktiv) vornehmen, je nachdem, wer das Interface
bedient (d.h. speaker specific = sprecherspezifisch sein) und wie lang
eine Person dieses Interface nutzt (d.h. adaptiv sein). Dies bedeutet,
dass sich das Gerät
mit diesem Interface an seinen Besitzer anpasst. Je länger man das
Interface nutzt, desto besser versteht das Gerät den Besitzer. Alternativ
kann auch die Adaption durch ein Haltesignal ausgeschaltet werden,
wenn das Gerät
bereits ausreichend an eine Sprachcharakteristik des Benutzers adaptiert
ist. Dies weist den Vorteil auf, dass nunmehr nicht ein numerisch
aufwendiger Adaptionsalgorithmus, sondern lediglich ein Analysealgorithmus
bzw. eine Analysevorschrift durch das rekurrente Netz auszuführen ist.
-
Die
Emotionsinformation kann nachfolgend beispielsweise aus einer additiven
oder subtraktiven Verknüpfung
von Signalen erfolgen, die nach Beaufschlagen der SOM und des rekurrenten
Netzes mit Sprachsignalanalysewerten aus einem Ergebnis der SOM
und einem Ergebnis des rekurrenten Netzes abgeleitet sind. Hierdurch
wird eine sprecher-spezifische Emotionserkennung ermöglicht,
die auf einer sprecher-unspezifischen
Emotionserkennung als Standardeinstellung und einer adaptierbaren
sprecher-spezifischen Emotionserkennung basiert.
-
Das
vorstehend beschriebene Verfahren ist als „Add-On"-Interface
bezeichnet, da dieses Verfahren in allen möglichen Einsatzgeräten als
Software realisiert werden kann, solange ein Audioeingang zur Verfügung steht.
Als Zielplattform kommen unter anderem die folgenden Möglichkeiten
in Frage:
- 1. Ein mobiles Gerät wie ein
Handy oder PDA oder eine Anwendung im Automobil
Ein portables
Gerät oder
ein Automobil lässt
sich leicht „personalisieren", da man den Eindruck
hat, das Gerät
wirklich zu „besitzen". Der Einsatz des Emotion-Sensitiv-Interfaces
(EI) soll den Besitzer zur weiteren psychologischen Empfindung bringen,
dass das Gerät „lebt".
- 2. Business-Applikationsplattform
Das vorstehend beschriebene
Verfahren kann überall
dort eingesetzt werden, wo das Dialogsystem auch eingesetzt ist.
Dies kann beispielsweise in einem Call-Center, beim Diktat oder als eigenes Anwendungsgerät zur Emotionswarnung
bei Geschäftsbesprechungen
eingesetzt werden.
-
Weiterhin
kann durch die Parametrisierung der Emotion eine Emotionserkennung „klonfähig" gemacht werden.
Das Interface EI (EI = emotion-sensitive-interface) bietet unter
anderem die Möglichkeit an,
die Parameter (beispielsweise die lokale Matrix) zu einem weiteren
Gerät zu übertragen.
Da der gelernte bzw. angepasste „Charakter" des EI als Gewicht in Form einer Matrix
abgespeichert ist, kann diese Matrix ohne großen Aufwand zu verschiedenen Geräten hin
kopiert werden. Das neue Gerät,
auf das die Parameter übertragen
wurden, braucht dann keine zusätzliche
Lernphase und ist sofort in der Lage, sich auf den Besitzer einzustellen.
Dieses Gerät
ist außerdem
weiterhin lernfähig.
-
Die Übertragung
der Parameter ist ein reiner Kopiervorgang, aber es wirkt für Menschen,
als wäre der „Charakter" des Geräts geklont,
da der „Charakter" (d.h. die Parameter
des EI) gleich bleibt und noch zur weiteren Anpassung fähig sind
und benutzt werden können.
-
In
den nachfolgenden Abschnitten werden ein paar Anwendungsgebiete
präsentiert,
um die Idee leichter verständlich
zu gestalten.
-
Zunächst soll
ein Emotion-Sensitive-Interface (EI) im Automobil vorgestellt werden.
Das EI ist lernfähig,
d. h. das EI versucht ständig,
sich an den Menschen, der das Gerät bedient, anzupassen. Auf den
ersten Blick zeigt dies eine Ähnlichkeit
mit gängigen
biometrischen Verfahren (Sprechererkennung) in dem Aspekt, dass
das Gerät
mit dem Emotion-Sensitive-Interface den Besitzer erkennt. Dieses Merkmal
ist jedoch kein Hauptziel, sondern eine Erschei nung, die durch das
Charakteristikum von Formant-Frequenzen zustande kommt.
-
Der
Hauptfokus liegt darauf, die emotionale Lage des Besitzers mit Hilfe
des Emotion-Sensitive-Interfaces zu erfassen. Allerdings wäre die Ermittlung
der Emotion anfangs nicht immer akkurat, das Gerät passt sich mit der Zeit jedoch
an den Besitzer an. Dieser adaptive Charakter differenziert sich
deutlich vom allgemeinen Sprachdialogsystem, das hauptsächlich deterministisch
aufgebaut ist, d. h. dass die Interaktivität vom Prozess/Gerät von Anfang an
fest definiert ist (hard-wired) und hinterher nicht zu ändern ist.
Beim Emotion-Sensitive-Interface ist jedoch die Interaktivität nicht
festverdrahtet, sondern dynamisch.
-
Als
Einsatzbereich ist hier beispielsweise ein Dialogsystem oder eine
Fahrererkennung im Automobil denkbar. Das Emotion-Sensitive-Interface kann
mit der derzeitigen Personalisierungstechnik oder einem Profilsystem
kombiniert werden. Folgendes Szenario ist hierbei denkbar: Der Fahrer
steigt ein und gibt einen verbalen Befehl „Musik". Der Unterschied zwischen einem deterministischen
Dialogsystem (Variante A) und einem System mit Emotion-Sensitive-Interface
(Variante B) zeigt sich beispielsweise durch einen nachfolgenden
exemplarischen Dialog:
A fragt nach: „Welches Genre wollen Sie
gerne hören?" Ein Dialog dieser
Art muss weiter durchgeführt werden,
bis der Benutzer eine eindeutige Musik auswählt.
-
Ein
Gerät gemäß Variante
B fragt nach: „Wollen
Sie eine ruhige Musik hören?
Sie hören
sich etwas traurig an".
-
Der
größte Unterschied
besteht darin, dass die Auswahl nicht an einer logischen Eingrenzung liegt
(d. h. dass man einen Entscheidungsbaum durchgeht und am Ende zu
einem bestimmten Zielwert gelangt), sondern dass das Gerät mit dem „Geschmack" des Besitzers mit
der Zeit vertraut wird.
-
Falls
ein derzeit bestehendes Profilsystem mit einem EI ausgestattet wird,
kann eine assoziative Funktion realisiert werden. Dies bedeutet:
Variante B' (Variante
B + Profilsystem) fragt nach: „Sie
hören sich etwas
traurig an. Wollen Sie die Musik hören, die Sie zum letzten Mal
hörten?"
-
Als
weiteres Anwendungsbeispiel kommt auch eine Emotionsberaterfunktion
in Frage. Je nach der emotionalen Lage kann man eine unterschiedliche
Entscheidung treffen, selbst wenn die umgebende Bedingung/Situation
gleich bleibt. Man kann in einer aufgeregten bzw. aggressiven Kondition
eine Fehlentscheidung treffen. Wenn dies z. B. eine unternehmerische
Entscheidung betrifft oder vergleichbar wichtige Angelegenheiten
angeht, dann folgt eine ungemütliche
Konsequenz hinterher. Ein emotionssensitiver „PDA" kann dem Besitzer im solchen Fall signalisieren,
dass die Gefühlslage
am Rand oder außerhalb
des normalen Status liegt. Ein solcher psychologischer Überwachungsmechanismus
entspricht in Analogie z. B. einem medizinischen Gerät wie beispielsweise
für einen
Diabetiker.
-
Weiterhin
ist sehr relevant, die allgemeine Atmosphäre bei einem Gruppenverhalten
zu verstehen, wie dies beispielsweise bei einem Meeting notwendig
ist. Eine Protokollierung von emotionalen Abläufen in einer Sitzung kann
ein sachliches Protokoll (manuell oder via ASR erstellt) ergänzen (vergleichbar
einem Tonfilm und eine Stummfilm ohne Musik).
-
Eine
weitere Anwendung der vorstehend beschriebenen Erfindung ist beispielsweise
in einem Call-Center denkbar. Manche Call-Center sind mit einem
Dialogsystem ausgestattet, um die Mitarbeiter zu entlasten und die
Arbeit innovativ zu gestalten. Das Dialogsystem bedeutet eine Reihe
von Dialoglisten, die per Spracherkennung bzw. Wiedergabe/Synthese
mit dem Anrufer interagiert. Dabei geht es darum, den breiten Umfang
von Service in einer logischen Reihenfolge zu formulieren, damit
der Anrufer durch sukzessive Dialoge ans Ziel/Menü gelangt. Falls
der Serviceumfang relativ groß ist,
passieren auch Fälle,
dass Anrufer innerhalb eines Labyrinths vom Dialogsystem „gefangen" werden. Wenn man dabei
das Dialogsystem mit einem emotionssensitiven Interface ergänzt, ist
das kombinierte System in der Lage, auf die Emotion des Anrufers
dynamisch zu reagieren. Angenommen, dass die Stimme eines Anrufers
erkennbar aggressiv klingt, dann kann das emotionssensitive Interface
ein Signal auslösen, dass
der Dialog nicht mehr weitergeführt
wird, sondern von einem Mitarbeiter übernommen wird.
-
Ein
Dialogsystem fragt z. B. „Sie
wirken sehr aufgeregt. Wollen Sie lieber mit unserem Mitarbeiter verbunden
werden?" Dann kommt
die Warteschleife mit der entsprechenden Musik. Es kann aber auch sein,
dass der Mitarbeiter bzw. Angerufene die emotionale Lage des Anrufers
erfährt,
bevor er ans Telefon kommt.
-
Zusammenfassend
lässt sich
sagen, dass sich das emotionssensitive Interface vorzugsweise als
ein Add-On-Prinzip ausgestalten lässt. Die meisten Geräte mit Audioeingängen können daher
mit dem emotionssensitiven Interface ausgestattet werden.
-
Als
Vorteil des emotionssensitiven Interfaces lässt sich nennen, dass es erstens
lernfähig
ist, zweitens auch ohne zusätzliches
Lernen die Emotion aus der Stimme erkennen kann, jedoch dann nicht
sprecher- (d. h. personen-)spezifisch ist, und drittens in einer
Kombination mit einem Profil-System zur kategorischen Assoziation
fähig ist
(Geschmack gegenüber
Musik-Genre).
-
Weiterhin
ist zu nennen, dass das emotionssensitive Interface sowohl als Software
als auch in Form von Hardware realisierbar ist. Daher kann es in einem
sehr breiten Umfeld eingesetzt werden, solange die Audioeingänge am Zielgerät existieren.
Als weitere Vorteile sind somit zu nennen, dass erstens die Erkennung
der Emotion eine erhöhte
Personalisierung bietet, zweitens ein neuartiges Interface mit menschenfreundlicher
Komponente bereitgestellt wird und drittens eine Übertragbarkeit
durch Parametrisierung erfolgen kann.
-
Abhängig von
den Gegebenheiten kann das erfindungsgemäße Verfahren zum Erkennen einer
in einem Sprachsignal enthaltenen Emotion in Hardware oder in Software
implementiert werden. Die Implementierung kann auf einem digitalen
Speichermedium, insbesondere einer Diskette oder CD mit elektronisch
auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren
Computersystem zusammenwirken können,
dass das entsprechende Verfahren ausgeführt wird. Allgemein besteht
die Erfindung somit auch in einem Computerprogrammprodukt mit einem
auf einem maschinenlesbaren Träger gespeicherten
Programmcode zur Durchführung
des erfindungsgemäßen Verfahrens,
wenn das Computerprogrammprodukt auf einem Rechner abläuft. Mit anderen
Worten ausgedrückt,
kann die Erfindung somit als ein Computerprogramm mit einem Programmcode
zur Durchführung
des Verfahrens realisiert werden, wenn das Computerprogramm auf
einem Computer abläuft.