-
Die
vorliegende Erfindung bezieht sich auf das Gebiet der Stimm- und
Sprechanalyse und insbesondere auf die Analyse von akustischen und
prosodischen Sprechcharakteristiken.
-
Hintergrund
der Erfindung
-
Es
ist seit langem bekannt, daß bestimmte Stimm-Charakteristiken
Informationen über
den emotionalen Zustand des Sprechers geben. Bereits 1934 stellte
Lynch Unterschiede hinsichtlich Timing- und Tonhöhencharakteristiken zwischen
sachlicher und emotionaler Sprechweise fest (Lynch, G.E. (1934).
A Phonophotographic Study of Trained and Untrained Voices Reading
Factual and Dramatic Material, Arch. Speech, 1,9-25.)
-
Seither
haben zahlreiche Studien Korrelationen zwischen verschiedenen nonverbalen
Sprechcharakteristiken und bestimmten emotionalen Zuständen gezeigt,
und Forschungsbemühungen
wurden auf unterschiedliche Aspekte des Phänomens der emotionalen Sprechweise
gerichtet. Eine Forschungsrichtung konzentriert sich auf die Identifikation
der Träger
von Emotionen im Sprechsignal, und Studien haben komplexe Korrelationsmuster
zwischen Tonhöhe
(Grundton der Stimme, abhängig
von der Schwingungszahl der Stimmbänder pro Sekunde), Amplitude,
Timing, Dauer, Tempo, Hüllkurven und
anderen Sprechvariablen und dem emotionalen Zustand des Sprechers
gezeigt. In einem zweiten Forschungsbereich wird versucht, den Ausdruck
unterschiedlicher emotionaler Dimensionen beim Sprechen zu erforschen,
und die Studien legen Korrelationen zwischen konstituierenden Elementen
der Sprechweise und Dimensionen, die den emotionalen Zustand des
Probanden kennzeichnen, nahe. Ein weiterer Forschungsansatz konzentriert
sich auf die Offenlegung der unterschiedlichen Korrelationen zwischen
Teilen der Sprechweise und verschiedenen emotionalen Zuständen, einschließlich primärer Emotionen,
wie Wut, sekundärer
Emotionen, wie z.B. Langeweile, und spezifischer Streßsituationen,
wie z.B. Angst, Arbeitsbelastung und Lügen. Noch ein weiterer Forschungsbereich
versucht, die Unterschiede hinsichtlich der emotionalen Sprechmuster zwischen
verschiedenen Personen, verschiedenen Gruppen von Personen, die
z.B. nach Geschlecht, Alter, Kultur und Persönlichkeitstyp unterteilt sind,
und auch zwischen den Stimmustern, die unterschiedlichen physiologischen
Zuständen
derselben Personen entsprechen, aufzuzeigen.
-
Drei
ausführliche Übersichtsartikel,
welche die verschiedenen Erkenntnisse hinsichtlich des stimmlichen
Ausdrucks von Emotionen zusammenfassen, wurden veröffentlicht
von Murray, I. R. and Arnott, J.L., (1993), Towards the Simulation
of Emotion in Synthetic Speech: A Review of the Literature on Human
Vocal Emotion, Journal of the Acoustical Society of America, Nr.
93 (2), 1097-1108; von Frick, R. W. (1985), Communicating Emotion:
The Role of Prosodic Features, Psychology Bulletin, 97, 412-429, und
von Scherer, K. R. (1986), Vocal Affect Expression: A Review and
a Model for Future Research, Psychology Bulletin, 99, 143-165. Alle
diese Autoren betonen die Bruchstückhaftigkeit der Forschung
auf diesem Gebiet und weisen darauf hin, daß die Stimmemotionsforschung
nur einen sehr kleinen und isolierten Teil der allgemeinen Literatur über Emotionen und
der allgemeinen Sprechanalyseliteratur bildet. Diese Besprechungen
stützen
zwar die Ansicht, daß Charakteristiken
der menschlichen Stimme abhängig vom
Ausdruck von Emotion variieren, betonen aber die Komplexität des Zusammenspiels
zwischen Physiologie, Psychologie und Sprechweise hinsichtlich Emotionen.
Ebenso betonen sie den Bedarf an verallgemeinerten Modellen für ein durchgängigeres
Verständnis
dieser Phänomene.
-
In
den letzten Jahren haben sich mehrere Studien mit der Aufgabe einer
automatischen Klassifikation des stimmlichen Ausdrucks unterschiedlicher emotionaler
Zustände
mittels Modellen zur Erkennung von statistischen Mustern befaßt. Dabei
wurde ein gewisser Erfolg erzielt, siehe beispielsweise Dellaert,
F., Polzin, T.S. und Waibel, A. (1996), Recognizing emotions in
speech, Proc. ICSLP, Philadelphia PA, USA, 1996, und Amir, N. und
Ron, S. (1998), Towards an automatic classification of emotions
in speech, Proc. ICSLP, Sydney, 1998.
-
Das
Gebiet der Emotionen beim Sprechen zieht zunehmendes Interesse auf
sich, und im September 2001 fand in Belfast ein spezieller Workshop statt,
der sich diesem Thema widmete (ISCA-Workshop: Sprache und Emotionen – vorgelegte
Arbeiten: http://www.qub.ac.uk/en/isca/proceedings/index.html).
Diese theoretischen wie auch empirischen Arbeiten zeigen einmal
mehr die Komplexität
des Phänomens,
das Fehlen von Daten und die verschiedenen Aspekte, die beteiligt
sind.
-
Bezüglich der
Detektion von Emotionen durch Sprechanalyse stellt die Literatur
mehrere noch zu lösende
Probleme heraus. Zwei der Hauptprobleme seien hier hervorgehoben:
Das
erste Problem ist das Fehlen eines vereinheitlichten Modells für emotional-akustische
Korrelationen, welches das Herangehen an unterschiedlichen emotionalen
Sprechgehalt mit einem allgemeinen Indikator ermöglicht; der aktuelle Forschungsstand
läßt nur den
Hinweis auf isolierte akustische Korrelationen mit spezifischen
emotionalen Zuständen
zu.
-
Das
zweite Problem besteht in der Schwierigkeit, die unterschiedlichen
Sprechausdrucksmuster unterschiedlicher Sprecher zu überwinden,
welche die emotionalen Unterschiede meist maskieren. Frühere Forschungen
versuchten dieses letztere Problem durch Gewinnen von Referenz-Sprechcharakteristiken
der Testperson oder spezifischer Gruppen von Personen anzugehen.
Dabei waren die Referenzen frühere
Messungen des (nicht-emotionalen) Grundzustands eines spezifischen
Probanden oder die spezifischen Profile emotionaler Sprechweise
bei relativ homogenen Gruppen von Probanden, die z.B. alle unter
Depressionen litten.
-
Mit
den Jahren wurden auf diesem Gebiet mehrere Patente angemeldet.
Diese Patente sind hauptsächlich
dadurch gekennzeichnet, daß sie
die gleichen Unzulänglichkeiten
aufweisen, wie sie oben im Zusammenhang mit der akademischen Forschung
beschrieben sind, nämlich,
daß sie
sich auf spezifische emotionale Zustände konzentrieren und sich
auf vorherige Referenzmessungen stützen. Die Patente unterscheiden
sich auch merklich in ihren Meßverfahren
und -parametern.
-
In
drei US-Patenten von 1974 (
US 3,855,416 ;
US 3,855,417 und
US 3,855,418 ) schlägt Fuller
ein Verfahren vor zum Anzeigen von Streß anhand der Sprechweise und
zur Feststellung, ob ein Proband lügt oder die Wahrheit sagt.
Das vorgeschlagene Verfahren mißt
den Vibrato-Anteil (rasche Modulation der Phonation) und die normalisierte
Spitzenamplitude des Sprechsignals und ist insbesondere auf die
Analyse der Sprechweise eines Probanden bei einer Befragung gerichtet.
-
Bell
et. al. schlug 1976 (US-Patent Nr. 3,971,034) ebenfalls ein Verfahren
zum Detektieren von psychologischem Streß anhand der Sprechweise vor.
Das beschriebene Verfahren beruht hauptsächlich auf der Messung von
Infraschall-Modulationsänderungen
der Stimme.
-
In
zwei Patenten von 1978 und 1979 (
US 4,093,821 und
US 4,142,067 ) beschreibt
Williamson ein Verfahren zum Bestimmen des emotionalen Zustandes
einer Person mittels Analyse von Frequenzstörungen im Sprechmuster. Die
Analyse beruht in erster Linie auf Messungen der ersten Formantenfrequenz
der Sprache, wobei jedoch die Unterschiede, die den verschiedenen
emotionalen Zuständen
entsprechen, nicht eindeutig angegeben sind: Im ersten Patent zeigt
die Vorrichtung in erster Linie Streß als Funktion der Entspannung
an, während
im zweiten Patent der Benutzer der Vorrichtung eine „visuelle
Integration und Interpretation des angezeigten Ausgangssignals" anwenden sollte,
um „gewisse
Entscheidungen bezüglich
des emotionalen Zustandes zu treffen".
-
Jones
schlug 1984 (US-Patent Nr. 4,490,840) ein Verfahren zum Bestimmen
von Mustern des Stimmklangs (Resonanz, Qualität), der Sprechweise (variabel/monoton,
abgehackt/glatt usw.) und der Art des Eindrucks (sensorisch, intern, Haß/Liebe
usw.) vor, die auf unterschiedlichen Stimm-Charakteristiken, einschließlich sechs
spektraler Peaks und Pausen innerhalb des Sprechsignals, beruhen.
Der Erfinder stellt jedoch fest, daß „das Vorliegen von spezifischem
emotionalem Gehalt für
die hier offenbarte Erfindung nicht von Interesse ist".
-
In
zwei US-Patenten von 1987 und 1992 (
US 4,675,904 und
US 5,148,483 ) schlägt Silverman
ein Verfahren zum Detektieren einer suizidalen Prädisposition
anhand der Sprechmuster einer Person vor, bei dem ein merklicher
Abfall zum Schluß einer Äußerung und
eine geringe Amplitudenmodulation während der Äußerung festzustellen sind.
-
1997
beschrieb Ron (US-Patent Nr. 5,647,834) ein sprachbasiertes Biofeedback-Regulierungssystem,
mit dem ein Proband seinen emotionalen Zustand überwachen und verändern kann.
Aus der Sprechweise des Probanden wird ein Emotionsindikatorsignal
gewonnen (das Meßverfahren
ist im Patent nicht beschrieben) und mit physiologischen Online-Messungen am Probanden
verglichen, die als Referenz für
seinen emotionalen Zustand dienen. Der Proband kann dann versuchen,
das Indikatorsignal zu verändern,
um seinen emotionalen Zustand unter Kontrolle zu bringen.
-
Bogdashevsky,
et. al. schlagen in einem US-Patent von 1999 (
US 6,006,188 ) ein Verfahren zum Bestimmen
der psychologischen oder physiologischen Merkmale eines Probanden
aufgrund der Erzeugung eines spezifischen Wissensschatzes für gewisse
psychologische und physiologische Zustände vor. Das beschriebene Verfahren
umfaßt
die Bildung homogener Gruppen von Testpersonen aufgrund ihrer psychologischen
Beurteilung (z.B. Persönlichkeitsdiagnosegruppen
gemäß psychologischen
Gemeinsamkeiten), die Analyse ihrer unverwechselbaren Sprechmuster
(aufgrund von Cepstral-Koeffizienten) und Erstellen spezifischer
Wissensbasen für
diese Gruppen. Die Zuordnung zu bestimmten psychologischen und physiologischen
Gruppen kann durch Vergleichen der Sprechmuster einer Person (die
aufgefordert wird, einen 30 Sätze
langen Text ähnlich dem
von der Referenzgruppe verwendeten Text zu sprechen) mit den Charakteristiken
aus dem Wissensschatz der Gruppe erreicht werden. Das Patent beansprucht,
eine verbalpsychologische Diagnose relativ stabiler Zustände zu ermöglichen,
z.B. den mentalen Zustand vor und nach der Therapie, und das Persönlichkeitsprofil
zu vergleichen.
-
Pertrushin
beschrieb 2000 (US-Patent Nr. 6,151,571) ein Verfahren zur Überwachung
eines Gesprächs
zwischen einem Sprecherpaar, zur Detektion einer Emotion mindestens
eines der Sprecher, zur Feststellung, ob die Emotion eine von drei negativen
Emotionen (Wut, Trauer oder Angst) ist, und zum anschließenden Berichten
der negativen Emotion an einen Dritten. Bezüglich des Emotionserkennungsprozesses
gibt das Patent die für
diese Ergebnisse erforderlichen Schritte näher an: Zunächst empfiehlt es die Durchführung eines
Experimentes mit den Ziel-Probanden, um „zu bestimmen, welche Teile
der Stimme besonders zuverlässig
als Indikatoren von Emotionen sind". Es wird vorgeschlagen, eine Gruppe
der zuverlässigsten Äußerungen
dieses Experimentes als „Trainings-
und Testdaten für
die Mustererkennungsalgorithmen zu verwenden, die von einem Computer
durchgeführt
werden". Der zweite
Schritt ist die Merkmalsextraktion für die emotionalen Zustände aufgrund
der gesammelten Daten. Das Patent schlägt mehrere mögliche Merkmalsextraktionsverfahren
unter Verwendung verschiedener Sprechcharakteristiken vor. Der dritte
Schritt besteht in der Erkennung der Emotionen, ausgehend von den extrahierten
Charakteristiken. Es werden zwei Ansätze angeboten – neurale
Netzwerke und Gruppen von Klassifikatoren. Die zuvor gesammelten
Datensätze (welche
die Emotionen darstellen) können
dazu verwendet werden, den Algorithmus auf die korrekte Bestimmung
der Emotionen zu trainieren. Es werden beispielhafte Vorrichtungen
sowie Verfahren zur verbesserten Emotionserkennung vorgestellt.
-
In
einem US-Patent von 2001 (
US 6,173,260 )
beschreibt Slaney ein System zur Klassifikation von emotionaler
Sprechweise. Das beschriebene System beruht auf einem empirischen
Verfahren, mit welchem die beste Kombination von Sprechcharakteristiken
(unterschiedliche Meßwerte
für Tonhöhe und spektrale
Hüllkurve)
extrahiert wird, die eine bestimmte Gruppe von sprachlichen Äußerungen
charakterisiert, welche gemäß vordefinierten Klassen
von Emotionen bezeichnet werden. Nachdem das System auf die vorgegebene
Gruppe von Äußerungen „trainiert" wurde, kann es die
extrahierten Charakteristiken zur weiteren Klassifikation anderer Äußerungen
nach diesen Klassen von Emotionen verwenden. Das Verfahren stellt
jedoch keinen allgemeinen emotionalen Indikator bereit und geht
nur davon aus, daß unterschiedliche
emotionale Charakteristiken für
unterschiedliche emotionale Situationen empirisch extrahiert werden
können.
-
Zwei
veröffentlichte
PCT-Anmeldungen von Liberman beziehen sich ebenfalls auf Emotionen beim
Sprechen. Liberman schlug 1999 (WO 99/31653) ein Verfahren zum Bestimmen
gewisser emotionaler Zustände,
einschließlich
Zuständen,
die mit emotionalem Streß und
Lügen zusammenhängen, wie
z.B. Unaufrichtigkeit, Verwirrung und Unsicherheit, psychologische
Dissonanz, Sarkasmus, Übertreibung,
anhand der Sprechweise bereit. Das Verfahren beruht auf der Messung
von Sprechbetonungsinformationen, insbesondere Plateaus und Zacken
der Sprechsignal-Hüllkurve,
unter Verwendung früherer Äußerungen
des Sprechers als Grundzustandsreferenz.
-
Liberman
beschrieb 2000 (WO 00/62270) eine Vorrichtung zur Überwachung
unbewußter
emotionaler Zustände
einer Person anhand von Sprechmustern, die einem Stimmanalysator
per Telefon zugeführt
wurden. Die Emotionsindikatoren umfassen einen Pegel unterbewußter kognitiver
Aktivität,
einen Pegel unterbewußter
emotionaler Aktivität,
einen Antizipationspegel, einen Aufmerksamkeitspegel, einen „Love Report" und sexuelle Erregung.
Das verwendete Verfahren beruht auf einer Frequenzspektralanalyse
der Sprechweise, bei der das Frequenzspektrum in vier Frequenzbereiche
unterteilt ist, und es wird beansprucht, daß ein höherer Prozentsatz von Frequenzen
in einem der Bereiche eine Dominanz eines der obigen emotionalen
Zustände
widerspiegelt. Es wird nahegelegt, daß die kognitive Aktivität mit den
niedrigsten Frequenzen korreliert, die Aufmerksamkeit/Konzentration
mit den Hauptspektralfrequenzen, die emotionale Aktivität mit hohen
Frequenzen und der Antizipationspegel mit den höchsten Frequenzen korrelieren.
-
Die
meisten der oben erwähnten
Patente (Fuller, Bell, Jones, Silverman und Liberman) identifizieren
spezifische emotionale Zustände,
wie Streß, Lügen oder
eine Suizidneigung durch Korrelation spezifischer Sprechcharakteristiken
mit diesen emotionalen Zuständen.
Zwei dieser Patente (Williamson, Ron) gehen davon aus, daß die entsprechenden Sprechkorrelationen
der emotionalen Zustände
als Eingangsgrößen vorgegeben
sind, und lassen dabei die Aufgabe der Beschreibung eines allgemeinen
Indikators für
emotionale Sprechcharakteristiken völlig außer acht. Drei der Patente
(Bogdashevsky, Petrushin und Slaney) schlagen Verfahren zur Extraktion spezifischer
Sprechkorrelationen durch „Erlernen" bestimmter emotionaler
Klassen von Sprachäußerungen
vor. Somit schlägt
keines der zuvor erwähnten
Patente einen verallgemeinerten, auf der Sprechweise basierenden
Indikator emotionaler Erregung an sich vor, der den sprachlichen
Ausdruck der emotionalen Reaktion beschreibt, die durch eine große Vielzahl
unterschiedlicher emotionaler Zustände erzeugt wird.
-
Ferner
muß bei
manchen dieser Patente (Fuller, Williamson) ein qualifizierter Fachmann
die Ergebnisse manuell analysieren, um die Unterschiede zwischen
einzelnen Personen zu überwinden.
Andere Patente (Ron, Liberman) erfordern einen Vergleich der Sprachmeßwerte des
Probanden vor den Grundzustandsmessungen derselben Person als Referenz.
Bei anderen Patenten (Bogdashevsky, Petrushin und Slaney) ist ein
vorheriger Lernprozeß für die Sprechcharakteristiken
spezifischer Gruppen von Personen oder spezifischer psychologischer
Phänomene,
die als Referenz verwendet werden sollen, erforderlich.
-
Somit
legt keines der oben besprochenen Patente dieses dicht gedrängten Standes
der Technik einen emotionalen Sprechindikator nahe, der robust ist
und über
unterschiedliche Emotionen und über
die Unterschiede zwischen spezifischen Einzelpersonen und spezifischen
Gruppen hinweg Gültigkeit
hat. Die vorliegende Erfindung ist auf die Schaffung eines solchen
robusten, allgemeinen Indikators für emotionale Erregung mittels
Sprechanalyse gerichtet, der unabhängig von den Unterschieden
zwischen Testpersonen und besonderen Emotionstypen ist, aber auf
emotionale Erregung an sich anspricht.
-
Zusammenfassung
der Erfindung
-
Die
vorliegende Erfindung ist auf die Bereitstellung eines allgemeinen
Indikators für
die emotionale Erregung eines Probanden mittels Sprechanalyse gerichtet,
der bei einer breiten Vielfalt unterschiedlicher emotionaler Zustände anwendbar
ist. Dieser emotionale Sprechindikator ist über die Sprechmusterunterschiede
zwischen bestimmten Personen oder Personengruppen hinaus gültig und
erfordert keinen Vergleich einer Sprechprobe eines Probanden mit
einer zuvor erhaltenen Referenz-Sprechprobe desselben Probanden.
-
Gemäß der vorliegenden
Erfindung wird ein Verfahren nach Anspruch 1 bereitgestellt, zum
Feststellen emotionaler Erregung eines Probanden durch Sprechanalyse,
das die Schritte umfaßt:
Gewinnen eines Sprechmusters; Vorverarbeiten des Sprechmusters zu
stillen und zu aktiven Sprachsegmenten und Unterteilen der aktiven
Sprachsegmente in Sequenzen gleichlanger Blöcke; wobei die Blöcke primäre Sprechparameter
aufweisen, die Tonhöhen- und
Amplitudenparameter einschließen;
Herleiten mehrerer ausgewählter
sekundärer
Sprechparameter, die Charakteristiken von Tendenzen gleichbleibender
Tonhöhe,
steigender Tonhöhe
und fallender Tonhöhe
in den Sequenzen von Blöcken
anzeigen; Vergleichen der sekundären
Sprechparameter mit vordefinierten, vom Probanden unabhängigen Werten,
die eine nicht-emotionale Sprechweise darstellen, um ein Verarbeitungsergebnis
zu erzeugen, das emotionale Erregung anzeigt, und Ausgabe des erzeugten
Verarbeitungsergebnisses an eine Ausgabevorrichtung, wobei die mehreren
ausgewählten
sekundären
Sprechparameter aus der folgenden Liste ausgewählt sind: durchschnittliche
Pausenlänge und/oder
Pausenfrequenz; durchschnittliche Länge kurzer stiller Abschnitte
und/oder Frequenz kurzer stiller Abschnitte und/oder Frequenz kurzer
stiller Abschnitte; durchschnittliche Länge von Segmenten gleichbleibender
Tonhöhe
und/oder Frequenz von Segmenten gleichbleibender Tonhöhe; durchschnittliche
Länge von
Segmenten steigender Tonhöhe und/oder
Frequenz von Segmenten steigender Tonhöhe und/oder durchschnittliche
Länge von
Segmenten fallender Tonhöhe
und/oder Frequenz von Segmenten fallender Tonhöhe und Durchschnittsamplitudenstreuung
innerhalb von Sprachsegmenten gleichbleibender Tonhöhe. Vorzugsweise
umfaßt
das Herleitungsverfahren ferner das Herleiten einer Vielzahl ausgewählter sekundärer Sprechparameter,
die Pausen- und Stillecharakteristiken der zu analysierenden Sprechprobe
anzeigen, gegebenenfalls einschließlich des Analysierens von
Unregelmäßigkeiten
von Tempo und Rhythmus, Tonhöhe
und Amplitude der zu analysierenden Sprechprobe.
-
Der
Schritt des Gewinnens einer Sprechprobe umfaßt gegebenenfalls den Schritt
der Eingabe einer digitalen Stimmdatei. Alternativ dazu umfaßt der Schritt
des Gewinnens einer Sprechprobe den Schritt des Erfassens von Sprechproben
und des Abtastens und Digitalisierens der Sprechproben in einer
Stimmabtast- und -digitalisiereinheit zum Erzeugen einer digitalisierten
Stimmdatei.
-
Der
Schritt des Vorverarbeitens umfaßt gegebenenfalls: Gewinnen
digitalisierter Stimmuster, Normalisieren der Stimmuster, Datenfilterung, Rauschunterdrückung, Segmentieren
der Stimmuster in Stille- und Sprachsegmente, Unterteilen der Sprachsegmente
in Blöcke
und Verarbeiten der Blöcke
durch Autokorrelation, um Tonhöhen-
und Amplituden-Sprechparameter blockweise zu berechnen.
-
In
einer Ausführungsform
kann das oben beschriebene Verfahren dazu eingerichtet sein, ein Sprechsignal
zu analysieren, das mehrere interagierende Stimmen enthält, wobei
das Verfahren ferner die folgenden zusätzlichen Schritte umfaßt: Trennen der
interagierenden Stimmen in separate Stimmkanäle; Durchführen einer Muster-Normalisierung
für jeden
interessierenden Kanal; Durchführen
einer Datenfilterung für
jeden interessierenden Kanal; Durchführen einer Rauschunterdrückung für jeden
interessierenden Kanal; Durchführen
einer Stille- und Sprachsegmentierung und Unterteilen der Sprachsegmente
in Blöcke
für jeden
interessierenden Kanal, sowie eine Autokorrelations-Verarbeitung,
um Tonhöhen-
und Amplituden-Sprechparameter blockweise für jeden interessierenden Kanal
zu berechnen.
-
Gegebenenfalls
umfaßt
der Herleitungsschritt das Markieren eines Sprachsegmentes einer vordefinierten
Länge zum
Verarbeiten; das Berechnen von auf Pausen bezogenen Parametern für das Sprachsegment;
das Berechnen von auf Stille bezogenen Parametern für das Sprachsegment;
das Zusammenfügen
von Blöcken
zu Sequenzen von Blöcken,
die als Sequenzen von Blöcken
mit Tendenzen steigender Tonhöhe,
Sequenzen von Blöcken
mit Tendenzen fallender Tonhöhe
und Sequenzen von Blöcken
mit Tendenzen gleichbleibender Tonhöhe kategorisiert werden; das
Berechnen von auf die Tonhöhe
bezogenen Parametern innerhalb des Sprachsegmentes, wobei die auf
die Tonhöhe
bezogenen Parameter aus der Liste von Frequenz und durchschnittlicher
Länge von
Sequenzblöcken,
die dadurch gekennzeichnet sind, daß sie Tendenzen steigender,
fallender oder gleichbleibender Tonhöhe haben, und Durchschnittsamplitudenstreuung
von Sequenzen von Blöcken
mit gleichbleibender Tonhöhe ausgewählt sind,
und Einteilen des Sprachsegmentes in eine von mehreren Kategorien
eines typischen Parameterbereichs.
-
Der
Schritt des Vergleichens der sekundären Sprechparameter mit vordefinierten,
vom Probanden unabhängigen
Werten, die eine nicht-emotionale Sprechweise darstellen, um ein
Verarbeitungsergebnis zu erzeugen, das emotionale Erregung anzeigt, umfaßt gegebenenfalls
das Vergleichen wenigstens zweier sekundärer Stimmparameter-Kategorien
mit vordefinierten Werten, die eine nicht-emotionale Sprechweise
darstellen, wobei die Kategorien aus der folgenden Liste ausgewählt sind:
durchschnittliche Länge
von Pausen und/oder Frequenz von Pausen; durchschnittliche Länge kurzer
stiller Abschnitte und/oder Frequenz kurzer stiller Abschnitte;
durchschnittliche Länge
von Segmenten gleichbleibender Tonhöhe und/oder Frequenz von Segmenten
gleichbleibender Tonhöhe;
durchschnittliche Länge
von Segmenten steigender Tonhöhe
und/oder Frequenz von Segmenten steigender Tonhöhe und/oder durchschnittliche
Länge von
Segmenten fallender Tonhöhe und/oder
Frequenz von Segmenten fallender Tonhöhe und Durchschnittsamplitudenstreuung
innerhalb von Sprachsegmenten gleichbleibender Tonhöhe.
-
Gegebenenfalls
umfaßt
das Verfahren ferner das Berechnen eines Zuverlässigkeitsgrades auf Basis wenigstens
eines Faktors, der aus der folgenden Liste ausgewählt ist:
Qualität
des Stimmsegments; Signifikanz der Entscheidung über emotionale Erregung und Übereinstimmung
spezifischer Segmentergebnisse mit Ergebnissen früherer Sprachsegmente.
-
Die
Qualität
des Stimmsegmentes wird vorzugsweise anhand des Rauschpegels, der
Größe der abgetasteten
Daten und der Qualität
der abgetasteten Daten bestimmt.
-
Vorzugsweise
wird die Signifikanz der Entscheidung über emotionale Erregung auf
Basis einer Anzahl beteiligter Parameter und eines Grades der Abweichung
innerhalb jedes Parameters bestimmt.
-
Gegebenenfalls
gibt es einen zusätzlichen Schritt
der Musterverarbeitung, um emotionale Muster zu erfassen, die entlang
einer Zeitachse deutlich werden.
-
Gemäß einem
zweiten Aspekt ist die vorliegende Erfindung auf eine Vorrichtung
mit Mitteln zum Ausführen
des Sprechanalyseverfahrens gemäß Anspruch
1 gerichtet, wobei die Vorrichtung umfaßt: eine Stimmeingabeeinheit;
eine Vorverarbeitungseinheit, die Stimmuster von der Stimmeingabeeinheit vorverarbeitet;
eine Hauptverarbeitungseinheit, die die vorverarbeiteten Stimmuster
verarbeitet und emotionale Erregung daraus erfaßt, und eine Hauptindikatoren-Ausgabeeinheit, die
eine Anzeige emotionaler Erregung ausgibt.
-
Die
Stimmeingabeeinheit enthält
gegebenenfalls eine Stimmerfassungseinheit und eine Stimmabtast-
und -digitalisiereinheit, die mit der Stimmerfassungseinheit gekoppelt
ist, um erfaßte
Stimmeingaben abzutasten und zu digitalisieren.
-
Wahlweise
enthält
die Stimmeingabeeinheit ein Mikrofon, eine Schnittstelle zu einer
Audio-Wiedergabeeinrichtung,
eine Schnittstelle zu einem Schnurtelefon, einem schnurlosen Telefon
oder einem Mobiltelefon, eine Schnittstelle zum Internet oder einem
anderen Netzwerk, eine Schnittstelle zu einem Computer, eine Schnittstelle
zu einem elektronischen Personal Organizer oder zu jedem beliebigen
anderen elektronischen Gerät
oder eine Schnittstelle zu einem Spielzeug.
-
Die
Stimmabtast- und -digitalisiereinheit ist vorzugsweise aus einer
Soundkarte oder einer Stimmabtast- und -digitalisiereinrichtung
auf Basis eines DSP-Chips ausgewählt.
-
Vorzugsweise
ist die Hauptindikatoren-Ausgabeeinheit aus einer lokalen Ausgabeeinrichtung, einer
Anzeigeeinrichtung, einem Lautsprecher, einer Datei, einer Speichereinheit
oder einer Überwachungseinrichtung
oder einer Schnittstelle zu einem entfernten Computer, zum Internet,
zu einem anderen Netzwerk, zu einem Schnurtelefon, einem schnurlosen
Telefon oder einem Mobiltelefon, zu einem Computerspiel, zu einem
Spielzeug, zu einem elektronischen Personal Organizer oder zu jedem beliebigen
anderen elektrischen Ausgabegerät
ausgewählt.
-
Alle
der vorgenannten Einheiten sind wahlweise auf einer kleinen mobilen
Einheit auf Basis eines DSP-Chips installiert. Alternativ dazu kann
ein Teil der Einheiten physisch von anderen Einheiten entfernt sein
und die Vorrichtung des weiteren eine Schnittstelle umfassen, die
eine Datenkommunikation zwischen den Einheiten ermöglicht.
-
Die
Vorverarbeitungs- und die Verarbeitungseinheit können alternativ in einem Softwarewerkzeug
enthalten sein, das in eine externe Quelle für digitalisierte Stimmeingabe
und in eine externe Ausgabeeinrichtung integrierbar ist.
-
Mit
primären
Sprechparametern sind, so wie der Begriff hier verwendet wird, absolute
Werte von Parametern, wie Tonhöhe
oder Intensität,
gemeint. Unter sekundären
Sprechparametern ist die Veränderung
der absoluten Werte der hier verwendeten Parameter zu verstehen.
Somit sind sekundäre Sprechparameter
abgeleitete Statistiken, die allgemein weniger Kultur-, Alters- und Geschlechtsunterschieden,
Hintergrundinterferenz, der Qualität des analysierten Signals
und anderen Verzerrungsfaktoren unterliegen, und die sekundären Sprechparameter,
die zum Anzeigen von emotionaler Erregung bei bevorzugten Ausführungsformen
der vorliegenden Erfindung verwendet werden, sind so gewählt, daß sie besonders
robust sind, wobei sie geringe Sensibilität gegenüber Unterschieden zwischen
Personen und gegenüber
Hintergrundinterferenz aufweisen.
-
Kurze Beschreibung
der Zeichnungen
-
Die
vorliegende Erfindung ist anhand der folgenden detaillierten Beschreibung
noch besser zu verstehen und zu würdigen. Es zeigen:
-
1 ein
Blockschema einer Vorrichtung, die gemäß einer Ausführungsform
der vorliegenden Erfindung gebaut und betreibbar ist;
-
2 ein
Ablaufschema einer Vorverarbeitungseinheit, die gemäß einer
Ausführungsform
der vorliegenden Erfindung gebaut und betreibbar ist; und
-
3 ein
Ablaufschema einer Hauptverarbeitungseinheit, die gemäß einer
Ausführungsform der
vorliegenden Erfindung gebaut und betreibbar ist.
-
Detaillierte
Beschreibung der Erfindung
-
Die
vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung
zur Detektion von emotionaler Erregung mittels Sprechanalyse. Der Begriff
emotionale Sprechweise" wird
hier im Zusammenhang mit einem Sprachsegment verwendet, in dem der
Sprecher sich in einer emotionalen Weise ausdrückt. Eine nicht-emotionale
Sprechweise bezieht sich auf ein Sprachsegment, in dem der Sprecher
sich nicht-emotional ausdrückt.
Frühere
Beschreibungen von Erfahrungen oder Gefühlen oder künftige Erwartungen erwünschter
oder unerwünschter
Ereignisse können
nur dann als emotionale Sprechweise betrachtet werden, wenn das
tatsächliche
beschriebene oder gewünschte
Gefühl
oder Ereignis aktuell emotional ausgedrückt wird. Die oben besprochenen
Druckschriften und Patente untermauern eindeutig das Phänomen, daß unterschiedliche emotionale
Zustände,
wenn sie stimmlich ausgedrückt
werden, die Sprechcharakteristiken eines Probanden im Vergleich
zu den Charakteristiken einer nicht-emotionalen Sprechweise verändern. Allerdings
ist die Bereitstellung eines allgemeines Indikators, der den Grad
der emotionalen Erregung einer Person mittels Sprechanalyse bestimmen
kann, noch immer eine sehr schwierige Aufgabe, was hauptsächlich durch
drei Faktoren bedingt ist:
- 1. unterschiedliche
emotionale Zustände
beeinflussen die Sprechcharakteristiken einer Person in unterschiedlicher
Weise;
- 2. Stimm- und Sprechcharakteristiken unterscheiden sich von
einer Person zur anderen merklich;
- 3. eine unterschiedliche emotionale Intensität (derselben Emotion) beeinflußt unterschiedliche Elemente
der Sprechweise in unterschiedlichem Maße.
-
Um
den Effekt dieser Faktoren zu überwinden,
folgen die meisten bestehenden Forschungsarbeiten und Patente zwei
Richtlinien: Sie trennen die Messung unterschiedlicher Arten von
Emotionen und verwenden frühere
Proben, um einen vergleichbaren Referenz-Grundzustand zu erhalten.
-
Die
vorliegende Erfindung schlägt
ein Verfahren zur automatischen Echtzeit-Sprechanalyse vor, um das
Vorliegen eines Grades allgemeiner emotionaler Erregung eines Probanden
zu einem bestimmten Zeitpunkt, jenseits spezifischer emotionaler Zustände und
spezifischer Unterschiede zwischen einzelnen Personen, ohne Verwendung
eines für
den Probanden selbst spezifischen Referenz-Sprechgrundzustandes,
anzuzeigen.
-
Der
Wegfall des Erfordernisses eines spezifischen Referenz-Grundzustandes,
die Verallgemeinerung von Stimm-Charakteristiken bei emotionaler Erregung
jenseits spezifischer emotionaler Zustände, und das Emotionsdetektionsverfahren
auf der Grundlage von Tonhöhen-Trends innerhalb
des Sprachsegmentes sind drei neue Merkmale der vorliegenden Erfindung.
-
1. Emotionale
Erregung jenseits spezifischer emotionaler Zustände
-
Eine
zentrale Annahme, die der vorliegenden Erfindung zugrunde liegt,
besteht darin, daß eine nicht-emotionale
Sprechweise einen Gleichgewichtszustand und eine emotionale Sprechweise
eine Abweichung von diesem Gleichgewicht reflektiert. Emotionale
Erregung ist bekanntlich eine Abweichung von einem physiologischen
Gleichgewicht bei gewissen emotionalen Zuständen, wie z.B. Streß. Sie drückt sich
in Veränderungen
autonomer Systemvariablen, wie Herzfrequenz, Muskelaktivität, galvanischer
Hautwiderstand, Blutdruck und Bluttemperatur, aus. Entsprechend
wird vorgeschlagen, daß die Änderungen
der Sprechmuster bei emotionaler Erregung eine Abweichung vom ausgeglichenen,
geordneten, nicht-emotionalen Zustand wiederspiegeln, und die vorliegende
Erfindung beruht auf dem Prinzip, daß die Sprechcharakteristiken
bei emotionaler Erregung weniger systematisch und ungeordneter sind
als die Charakteristiken einer nicht-emotionalen Sprechweise. Die
Abweichung vom geordneten Sprechrhythmus, die extremer emotionaler
Erregung oder Aufregung entspricht, wie z.B. Weinen oder Schreien,
ist für
die meisten Zuhörer
deutlich. Es gibt ähnliche,
entsprechende Veränderungen
der geordneten Sprechmuster, die ebenfalls geringfügige Erregungsniveaus
ausdrücken.
-
Obwohl
unterschiedliche emotionale Zustände
unterschiedliche Sprechcharakteristiken erzeugen können, liegt
es nahe, daß ein
gemeinsamer Faktor von Sprechcharakteristiken vieler unterschiedlicher,
emotional erregter Zustände
in der Unregelmäßigkeit
der Sprechmuster im Vergleich zur systematischeren Natur einer nicht-emotionalen Sprechweise
liegt. Gleichermaßen
wird, wenn gleich unterschiedliche Personen, die emotional erregt
oder aufgeregt sind, unterschiedliche Sprechcharakteristiken aufweisen
können,
nichtsdestotrotz davon ausgegangen, daß all diesen emotional erregten
Personen im Vergleich zu ihren allgemeinen, nicht emotional erregten
Sprechmustern weniger geordnete Sprechmuster gemeinsam sind. Die
vorliegende Erfindung konzentriert sich auf die Bestimmung dieses gemeinsamen
Faktors als Indikator, der die allgemeine emotionale Erregung einer
Person herausstellt.
-
Wie
in der Literatur berichtet wurde, stellte man fest, daß der Ausdruck
unterschiedlicher emotionaler Zustände mit spezifischen Sprechcharakteristiken
korreliert. Wir hingegen gehen hier davon aus, daß zwei Arten
von Variablen, nicht aber spezifische emotionale Zustände, eine „emotionale
Erregung" selbst
allgemein charakterisieren. Die erste Variable, die hier als Vorliegen
konstanter Tonhöhe
bezeichnet wird, ist der Grad des Vorliegens von Zeiträumen mit gleichbleibender
Tonhöhe
innerhalb des Sprachsegmentes, und die zweite Variable ist der Übereinstimmungsgrad
unterschiedlicher Sprechcharakteristiken, der ein Maß für den Ordnungszustand
des Sprechmusters ist.
-
Vorliegen
einer konstanten Tonhöhe:
Als Faustregel wird hier davon ausgegangen, daß eine emotionale Sprechweise
durch ein selteneres Vorliegen von Perioden mit gleichbleibender
Tonhöhe
und durch ein häufigeres
Vorliegen von Perioden mit sich verändernder (steigender oder fallender
Tonhöhe) gekennzeichnet
ist, was bedeutet, daß eine
emotionale Sprechweise eine kleinere Anzahl pro Sekunde und eine
kürzere
mittlere Länge
von Perioden mit gleichbleibender Tonhöhe innerhalb des Sprachsegmentes
im Vergleich zur regulären,
nicht-emotionalen
Sprechweise zeigt. Es sei angemerkt, daß wir nicht davon ausgehen,
daß eine
emotionale Sprechweise stets durch eine höhere Tonhöhenvariation/einen höheren Tonhöhenbereich
oder durch eine größere Häufigkeit
von Tonhöhen-Richtungsänderungen (steigend/fallend)
innerhalb des Sprachsegmentes gekennzeichnet ist, da diese letzteren
Variablen mehr durch spezifische emotionale Zustände, durch individuelle Unterschiede
und durch die Sprechlautstärke
beeinflußt
werden. Im Gegensatz dazu legen wir nahe, daß die Parameter für das Vorliegen
einer konstanten Tonhöhe
weniger durch die zuvor erwähnten
Einflußfaktoren
beeinflußt
werden, als die Parameter für
eine größere Tonhöhenänderung/einen
größeren Tonhöhenbereich/eine
größere Häufigkeit
von Veränderungen.
Folglich sind sie deutliche Anzeichen für emotionale Erregung.
-
Übereinstimmungsgrad
unterschiedlicher Sprechcharakteristiken: Wie zuvor erwähnt, wird
davon ausgegangen, daß eine
Unregelmäßigkeit
bei Sprechmustern sich auf einen emotionalen Ausdruck bezieht.
-
Das
allgemeine, weniger geordnete Verhalten von Sprechcharakteristiken
zeigt sich anhand einer geringeren Übereinstimmung mehrerer Sprechvariablen,
wie der Länge
und Verteilung von Abständen
zwischen aufeinanderfolgenden Pausen und stillen Abschnitten, die
Länge der
Pausen und der stillen Abschnitte selbst und die Länge, Häufigkeit
und Verteilung unterschiedlicher nicht-stiller Abschnitte (z.B. die
Länge der
Zeiträume
mit steigender bzw. fallender Tonhöhe). Wie bei der Messung des
Vorliegens von gleichbleibender Tonhöhe liegt die Betonung auf der
Messung von Ereignissen auf der Zeitskala – Anzahl pro Sekunde, Längen, Abstände und
Verteilung spezifischer Sprechvariablen oder gruppierter Perioden
innerhalb des Sprachsegmentes. Diese Zeit-basierten Variablen werden
allgemein weniger durch Einfluß-
und Störfaktoren
beeinflußt,
als die Variablen der Tonhöhe
und Amplitude. Die Erkennung einer Kombination von Abweichungen
einiger dieser Variablen gegenüber
einer geordneten Sprachstruktur kann die Unregelmäßigkeit
von Sprechmustern aufdecken, die im Zusammenhang mit emotionaler
Erregung steht.
-
2. Überwindung
des Effektes individueller Sprechmuster
-
Wie
hier zuvor erwähnt,
unterscheiden sich Stimm- und Sprechmuster von einer Person zur
anderen deutlich. Einige dieser Unterschiede sind allgemeiner Art.
Beispielsweise hat die Sprechweise von Frauen statistisch gesehen
eine höhere
Tonhöhe
als die Sprechweise von Männern.
Andere Unterschiede sind spezifischer. Beispielsweise hat die Sprechweise
einer Person eine typische Tonhöhen-Charakteristik
dieser Person, und es gibt zahlreiche andere Sprachtendenzen, welche
die Sprechweise bestimmter Personen charakterisieren, wie z.B. eine
monotone Sprechweise, eine stockende Sprechweise usw.
-
Bei
den Ausführungsformen
der vorliegenden Erfindung macht die Bestimmung des allgemeinen
Niveaus emotionaler Erregung des Probanden, um die Abweichungseffekte
aufgrund der allgemeinen Charakteristiken der Sprechmuster der Person zu überwinden,
selektiven Gebrauch von sekundären Stimm-Tonhöhenparametern
und selektiven Gebrauch von sekundären Stimm-Amplitudenparametern.
-
Verwendung
sekundärer
und nicht primärer Sprechparameter:
Bei der Sprechanalyse gemäß Ausführungsformen
der vorliegenden Erfindung werden vorwiegend sekundäre Stimm- und Sprechparameter
verwendet und primäre
Parameter außer
acht gelassen.
-
Für die Zwecke
dieser Anmeldung impliziert der Begriff sekundäre Stimmparameter solche Parameter,
wie sie von den primären
Tonhöhen-
und Amplitudenparametern hergeleitet sind, nicht aber die primären Parameter
selbst. Primäre
Parameter werden durch die Unterschiede zwischen Personen deutlich
beeinflußt
und daher bei gemäß der vorliegenden
Erfindung durchgeführten
Analysen nicht oder zumindest nicht ins Gewicht fallend berücksichtigt.
Somit wird der Stimmfrequenzwert oder die Tonhöhe selbst allgemein nicht als
Parameter verwendet, da er/sie zwischen unterschiedlichen Menschen merklich
variiert. Tonhöhenänderungen
innerhalb der Sprachsegmente werden jedoch betont, da sie keine absoluten
Werte, sondern relative Werte beisteuern und daher weniger durch
die Unterschiede zwischen einzelnen Personen beeinflußt sind.
-
Selektive
Verwendung sekundärer Stimm-Tonhöhenparameter:
Sekundäre
Stimmparameter sprechen ebenfalls bis zu einem gewissen Grad auf
die Unterschiede zwischen Sprechmustern unterschiedlicher Personen
an. Die Sprechverarbeitung der vorliegenden Erfindung läßt den Großteil der sekundären Parameter
außer
acht, die von diesen Unterschieden am meisten betroffen sind.
-
Ein
Beispiel für
einen sekundären Stimm-Tonhöhenparameter,
der nicht verwendet wird, ist der Bereich der Tonhöhenveränderung.
Dieser wird als sekundärer
Parameter betrachtet, da er nur die relativen Veränderungen
der Tonhöhe
des Sprechers, nicht aber die Tonhöhe selbst wiedergibt. Da dieser
Parameter jedoch stark mit dem tatsächlichen Tonhöhenwert
korreliert, wird er häufig
von den Unterschieden zwischen Personen, nicht aber vom Zustand
der emotionalen Erregung selbst, deutlich beeinflußt. Folglich
läßt die Sprachverarbeitung
gemäß der vorliegenden
Erfindung typischerweise diesen Parameter und ebenso andere sekundäre Parameter,
die je nach Individuum stark variieren, außer acht.
-
Selektive
Verwendung sekundärer Stimm-Amplitudenparameter:
Zahlreiche Stimmamplituden-Parameter, und zwar sowohl primäre wie auch
sekundäre,
werden mehr durch Sprachunterschiede zwischen einzelnen Personen
beeinflußt
als die Tonhöhen-Parameter. Amplitudenparameter
unterliegen auch stark der allgemeinen Qualität des analysierten Stimmsignals
und werden durch Umwelteinflüsse,
wie Interferenz, akustisches Rauschen und elektronisches Rauschen
im Zusammenhang mit den verschiedenen Bauteilen der Analysegeräte, nachteilig
beeinflußt.
Folglich wird bei der Feststellung des Vorliegens von emotionaler
Erregung gemäß der vorliegenden
Erfindung wenig Gewicht auf primäre
wie auch sekundäre
Amplitudenparameter gelegt.
-
3. Überwinden
der Intensitätseffekte
-
Zwar
wird die Intensität
der emotionalen Erregung eines Probanden manchmal durch die Intensität (Lautstärke) des
Sprechens selbst angezeigt, doch ist dies nicht immer der Fall.
Wenn eine Person beispielsweise wütend schreit, nehmen üblicherweise
Stimm-Tonhöhe,
Stimmamplitude und Sprechgeschwindigkeit zu, was auch zu einer entsprechenden Zunahme
der zahlreichen sekundären
Sprechparameter führt,
wobei das Sprechprofil einer Person, die wütend schreit, sich jedoch sehr
stark vom Sprechprofil einer Person unterscheiden kann, die eine
weniger aufgeregte Form von Wut zeigt, obwohl beide eine emotionale
Erregung wiedergeben. Beispielsweise gibt es Menschen, die ihre
Wut dadurch zeigen, daß sie
ruhig und bedacht sprechen.
-
Die
vorliegende Erfindung konzentriert sich auf die Detektion emotionaler
Erregung an sich, und nicht nur intensiver emotionaler Erregung
oder emotionaler Erregung, die einer bestimmten Emotion entspricht.
Da Unterschiede in der Sprechlautstärke, die nicht mit einer emotionalen
Erregung im Zusammenhang stehen, zudem die Sprechcharakteristiken
störend
beeinflussen können,
beispielsweise dadurch, daß sie
den Flüchtigkeitsgrad
bestimmter Sprechparameter beeinflussen, ist es wichtig, die Effekte
der Sprechlautstärke
auf die Sprachverarbeitung möglichst
zu minimieren. Dies kann dadurch erreicht werden, daß man den
gleichen Richtlinien folgt, wie sie oben im Zusammenhang mit dem Überwinden
der Effekte individueller Sprechmuster angegeben sind, einschließlich der
wahlweisen Verwendung von in erster Linie sekundären Tonhöhen- und Amplitudenparametern.
Dennoch wird, um die Empfindlichkeit der Verarbeitung gegenüber der
Wirkung der Stimmlautstärke
noch weiter zu verringern, vorzugsweise eine zusätzliche Verarbeitung durchgeführt. Der Haupteinfluß, den die
hörbare
Sprechlautstärke
auf das Sprechen hat, besteht darin, die Bereiche ihrer Parameter
zu vergrößern oder
zu verkleinern. Folglich wird bei der Sprachverarbeitung der vorliegenden
Erfindung allgemein eine Anfangsklassifikation jedes verarbeiteten
Sprachsegmentes gemäß einer von
mehreren typischen Parameterbereichs-Verhaltensklassen durchgeführt. Diese
anfängliche
Klassifikation ermöglicht
die Anwendung unterschiedlicher Kriterien zur Bestimmung des Vorliegens
von emotionaler Erregung in unterschiedlichen Parameter-Bereichsklassen bei
der Verarbeitung.
-
4. Bestimmung
des Vorliegens von emotionaler Erregung
-
Wie
zuvor erwähnt,
wurde festgestellt, daß nach
Minimierung der unterschiedlichen verfälschenden Effekte die Sprechcharakteristiken,
die am unmittelbarsten mit einer emotionalen Erregung zusammenhängen, der
Grad des Vorliegens einer konstanten Tonhöhe, die Unregelmäßigkeit
des Tempos, des Rhythmus und anderer Sprechmusterindikatoren sind.
-
Insbesondere
verwendet der Algorithmus der vorliegenden Erfindung eine Kombination
von mindestens zwei und vorzugsweise mehr der folgenden Sprechparameter-Kategorien:
- • Mittlere
Pausenlänge
und/oder Pausenfrequenz
- • Kurze
mittlere Länge
von stillen Abschnitten und/oder Frequenz von kurzen stillen Abschnitten
- • Mittlere
Länge von
Segmenten mit gleicher Tonhöhe
und/oder Frequenz von Segmenten mit gleicher Tonhöhe
- • Mittlere
Länge von
Segmenten mit steigender Tonhöhe
und/oder Frequenz von Segmenten mit steigender Tonhöhe und/oder
mittlere Länge
von Segmenten mit fallender Tonhöhe
und/oder Frequenz von Segmenten mit fallender Tonhöhe.
- • Amplitudendispersion
innerhalb von Sprachsegmenten mit gleicher Tonhöhe
-
Mit „Pausen" sind relativ lange
stille Abschnitte beim Sprechen gemeint, wobei die Pausen beispielsweise
Unterbrechungen beim Sprechen von typischerweise etwa 0,25 bis 1,25
Sekunden sind, die üblicherweise
zwischen Sätzen
auftreten.
-
Mit „kurze
stille Abschnitte" sind
Unterbrechungen mit einer Dauer von weniger als etwa 0,25 Sekunden
gemeint. Kurze stille Abschnitte sind die stillen Abschnitte, die
typischerweise zwischen Worten und Silben auftreten.
-
„Abschnitte
gleicher Tonhöhe" sind kontinuierliche
Sprachsegmente, die dadurch gekennzeichnet sind, daß sie eine
relativ stabile Tonhöhe
aufweisen, d.h. daß die
Tonhöhe
innerhalb vorgegebener Toleranzen variiert.
-
Im
Gegensatz dazu sind „Segmente
mit steigender und fallender Tonhöhe" Segmente, die durch einen kontinuierlichen
und definierten Anstiegs- oder Abfallstrend der Tonhöhe gekennzeichnet
sind.
-
Die
Bestimmung emotionaler Erregung mit einem hohen Gewißheitsgrad
macht es erforderlich, daß eine
Kombination von mindestens zwei (vorzugsweise mehr) der obigen Parameter
gleichzeitig von nicht-emotionalen Werten abweicht. Die Entscheidung,
ob der Proband tatsächlich
emotionale Erregung zeigt, kann jedoch vorzugsweise auch vom Grad
der Abweichung jedes Parameters abhängig gemacht werden, wobei
Bereich und Werte, die eine Regelmäßigkeit kennzeichnen, für jeden
Parameter mittels Analyse großer
Proben von Sprachdaten ermittelt werden, die von der allgemeinen
Bevölkerung stammen.
-
1 zeigt
ein Blockschema einer Vorrichtung zum Detektieren emotionaler Erregung,
die gemäß einer
Ausführungsform
der vorliegenden Erfindung gebaut und betätigbar ist. Die Vorrichtung
umfaßt
eine Stimmeingabeeinheit 10, eine Stimmabtast- und -digitalisiereinheit 12, eine
Vorverarbeitungseinheit 14, eine Hauptverarbeitungseinheit 16 und
eine Hauptindikatoren-Ausgabeeinheit 18.
Die Stimmeingabeeinheit 10 kann jede Vorrichtung sein,
die Daten der menschlichen Stimme in beliebiger Form trägt – ein Mikrofon,
ein Schnurtelefon, ein schnurloses Telefon oder ein Mobiltelefon,
eine beliebige Audiowiedergabevorrichtung (wie z.B. ein Tonbandgerät, ein CD-Spieler),
digitalisierte Stimmdateien, eine Internet-Verbindung (Voice over
IP, Kabel, Satellit oder jedes andere Verfahren). Die Stimmabtast-
und -digitalisiereinheit 12 kann eine Computer-Soundkarte,
ein Spezial-DSP-Chip oder eine andere Abtast- und Digitalisiervorrichtung
sein.
-
Das
Verfahren zur Feststellung von emotionaler Erregung gemäß der vorliegenden
Erfindung ist folgendes (mit gewissen Variationen zwischen unterschiedlichen
Ausführungsformen
der Vorrichtung): Das Ablaufschema in 2 zeigt
den Vorverarbeitungsschritt im Detail, und das Fließschema
in 3 zeigt den Hauptverarbeitungsschritt im Detail.
-
(a) Vorverarbeitung:
-
Die
Vorverarbeitungsfunktion dient zur Vorbereitung der Rohdaten für die eigentliche
Verarbeitung. Insbesondere dient sie dazu, Tonhöhen- und Amplitudenparameter
für jeden
Sprachblock einer vordefinierten Länge zu gewinnen. Der Prozessor
ist eine CPU-Einheit, bei der es sich um die CPU eines PC handeln
kann, oder er kann ein spezieller DSP-Chip oder tatsächlich jede
andere geeignete Verarbeitungsvorrichtung sein. Die Vorverarbeitung umfaßt die folgenden
Verfahrensschritte, die von Fachleuten auf dem Gebiet der Signalverarbeitung weitgehend
anerkannt sind (2):
- • Gewinnen
digitalisierter Stimmproben (Block 20);
- • bei
Bedarf Trennung eines Gruppengesprächs in einzelne Proben von
Stimmkanälen.
Wenn
die Stimmeingabe beispielsweise ein Telefongespräch ist, wird dieses vorzugsweise
in zwei Stimmkanäle
aufgeteilt, deren jeder einen anderen Sprecher wiedergibt, möglicherweise
durch getrenntes Abtasten mit einem Signal, das zum Beispiel über die
Sprechmuschel eines der Telefone erhalten wird (Block 22).
Offensichtlich unterscheiden sich die Pausen und die Längen von Phrasen
im Dialog merklich von denen beim Monolog, und diese Unterschiede
sind gewürdigt
und berücksichtigt;
- • Normalisierung
der Werte für
die Muster – für beide
Kanäle
durchgeführt
(Block 24);
- • Datenfilterung – für beide
Kanäle
durchgeführt (Block 26);
- • Rauschminderung – für beide
Kanäle
durchgeführt
(Block 28);
- • Einleitung
der Segmentierung und Berechnung der Basisparameter für den ersten
Kanal (Block 30);
- • für den ersten
Kanal werden eine Segmentierung nach Stille und Sprache sowie eine
Unterteilung der Sprachsegmente in Blöcke (Block 32) durchgeführt;
- • eine
Autokorrelation (Block 34) zur Berechnung von Tonhöhe und Amplitude
wird für
den ersten Kanal durchgeführt;
- • Wenn
es zwei Sprecher gibt, werden die Schritte der Segmentierung und
der Autokorrelation (Blöcke 30, 32, 34 oben)
nun für
den zweiten Stimmkanal durchgeführt,
sofern dieser vorhanden ist (Blöcke 36 und 38).
-
Die
Ausgangssignale der Vorverarbeitungsschritte sind Sequenzen von
Sprachsegment-Blöcken, die
dadurch gekennzeichnet sind, daß sie
Tonhöhen-
und Amplitudenwerte pro Block sowie Längen für Stille- und Pausensegmente
aufweisen.
-
(b) Verarbeitung:
-
Das
Hauptverarbeitungsverfahren liefert einen Hinweis auf emotionale
Erregung. Es kann mit demselben CPU-Prozessor durchgeführt werden,
in dem die Vorverarbeitung durchgeführt wurde, oder alternativ
auf einer anderen CPU-Einheit. Die Verarbeitungseinheit kann die
CPU eines PC, ein Spezial-DSP-Chip oder jede andere geeignete Verarbeitungsvorrichtung
sein. Das Verarbeitungsverfahren umfaßt für jeden Kanal die folgenden
Verarbeitungsschritte (3):
- • Auswählen eines
kurzen Sprachsegmentes, typischerweise drei bis sechs Sekunden Sprache, zur
Verarbeitung (Block 40).
- • Berechnen
pausenbezogener Parameter des Sprachsegmentes, einschließlich der
durchschnittlichen Anzahl von Pausen pro Sekunde und der durchschnittlichen
Pausenlänge
(Block 42).
- • Berechnen
Stille-bezogener Parameter des Sprachsegmentes, einschließlich der
durchschnittlichen Anzahl von stillen Abschnitten pro Sekunde und
der durchschnittlichen Länge
der stillen Abschnitte (Block 43).
- • Bestimmen,
welche Segmentsequenzen von Blöcken
Segmentsequenzen sind, die Blöcke
mit gleicher Tonhöhe
aufweisen, durch Markieren der aufeinanderfolgenden Blöcke, die
eine relativ (d.h. innerhalb akzeptabler Toleranzen) konstante Tonhöhe aufweisen
(Block 44).
- • Bestimmen,
welche Segmentsequenzen von Blöcken
Tendenzen steigender oder fallender Tonhöhe zeigen (Block 46).
- • Berechnen
der sekundären
Tonhöhenparameter des
Sprachsegments, wie der durchschnittlichen Anzahl pro Sekunde und
der durchschnittlichen Länge
von Perioden mit steigender, fallender und gleichbleibender Tonhöhe und der
Amplitudenverteilung von Perioden mit gleicher Tonhöhe (Block 47).
- • Klassifizieren
des verarbeiteten Sprachsegmentes in eine von mehreren Kategorien
typischer Parameterbereiche, um Segmente mit unterschiedlichen Sprachgrößen zu differenzieren
(Block 48).
- • Bestimmen
des Indikators für
emotionale Erregung im Sprachsegment. Dieser Indikator beruht auf
dem Vergleich der berechneten Stimmparameter mit vordefinierten
Werten, die nicht-emotionale
Sprache wiedergeben, und der Bewertung der Kombination von Unregelmäßigkeiten
(Block 50).
Wenn ein zweiter Kanal vorhanden ist,
d.h. Proben von zwei Teilnehmern in einem Gespräch (Blöcke 52 und 54)
genommen werden, werden die gleichen Verfahrensschritte 40 bis 50 an
der Probe des zweiten Kanals durchgeführt.
- • Das
Verfahren umfaßt
vorzugsweise auch eine Berechnung eines Zuverlässigkeitsgrades – basierend
auf einer Kombination mehrerer Faktoren, typischerweise einschließlich der
Qualität
des Stimmsegmentes (Rauschpegel, Größe der erfaßten Daten, Qualität der erfaßten Daten),
der Signifikanz der Entscheidung über emotionale Erregung (Anzahl
beteiligter Parameter, Abweichungsgrad jedes Parameters), der Übereinstimmung
der spezifischen Segmentergebnisse mit den vorhergehenden Sprachsegmenten
(emotionale Änderungen
sollten hinsichtlich der Anzahl der Änderungen, ihrer Intensität, ihrer
Länge und dem
Wechsel zwischen Emotionen in einem bestimmten Zeitraum vernünftigen
Mustern folgen).
- • Musterverarbeitung:
Die Verarbeitung kann eine weitere Schicht umfassen, die gewisse
emotionale Muster detektiert, welche sich im Laufe der Zeit oder
im Vergleich mit anderen Ergebnissen zeigen. Beispielsweise ermöglicht beim
Analysieren eines Gesprächs
ein Vergleich der emotionalen Zustände der beiden Sprecher die
Detektion von Mustern in der zwischenmenschlichen Kommunikation,
wie z.B. Zuneigung, Gleichgültigkeit,
Höflichkeit,
Gesprächsatmosphäre und Verlauf.
-
(c) Ausgang:
-
(1,
Block 18): Die Emotionsmeßergebnisse können je
nach der verwendeten spezifischen Gerätekonfiguration und gemäß der jeweiligen
Anwendung an verschiedene Ausgänge
gesendet werden. Normalerweise wird das Ausgangssignal an die Echtzeit-Anzeige
eines Benutzers (visuell, stimmlich oder textlich) gesendet. Es
kann einem Fernnutzer über
jede Art von Netzwerk berichtet und in jeder) Art von Ausgabe- oder
Speichergerät
oder Datei protokolliert oder gespeichert werden.
-
5. Vorrichtung
und mögliche
Anwendungen
-
Beispielshalber
werden zwei Grundmodelle für
Vorrichtungen zur Durchführung
des Patentes vorgestellt, wobei jedoch auch andere geeignete Vorrichtungen
alternativ dazu eingesetzt werden können:
-
(a) Eine kleine, mobile
DSP-Chip-basierte Einheit:
-
Diese
Vorrichtung kann als kleine mobile Einheit zur Echtzeit-Detektion
oder Offline-Analyse emotionaler Erregung dienen. Sie kann als Einzelgerät bei direkten
zwischenmenschlichen Wechselwirkungen verwendet werden. Alternativ
dazu kann sie an Eingabe- oder Ausgabegeräte, wie z.B. Computer, Audiowiedergabegeräte, Schnurtelefone
oder schnurlose Telefone oder Mobiltelefone, elektronische Personal
Organizer, Internet oder jedes andere Netzwerk, angeschlossen werden,
um verschiedene lokale oder entfernte Stimmeingaben zu erhalten
und verschiedene lokale oder entfernte Ausgangssignale anzuzeigen
oder zu berichten. Sie kann auch als Hardware in andere Geräte, wie
z.B. Schnurtelefone, schnurlose Telefone oder Mobiltelefone, Computerspiele,
Spielzeuge, Computer oder jedes andere elektronische Gerät, integriert
werden. Die Vorrichtung umfaßt
ein Mikrofon (oder eine andere Eingabeschnittstelle), einen digitalen
Abtaster, einen Prozessor und eine Anzeige (oder eine andere Ausgabeschnittstelle).
-
(b) Ein Software-basiertes
Werkzeug.
-
Diese
Vorrichtung kann als computerbasiertes Werkzeug zur Echtzeit-Detektion
oder zur Offline-Analyse von emotionaler Erregung dienen. Sie kann
als unabhängiges
Software-Werkzeug zur Analyse digitaler Stimmdateien verwendet werden.
Alternativ dazu kann sie über
die Computer-Schnittstellen mit einem beliebigen Eingabe-/-Ausgabegerät verbunden
werden, um ein lokales oder entferntes Stimmeingabesignal zu gewinnen
und auf verschiedenen lokalen oder entfernten Ausgabegeräten, wie Mikrofonen,
Audio-Wiedergabegeräten,
Schnurtelefonen oder schnurlosen Telefonen oder Mobiltelefonen, über das
Internet oder ein anderes Netzwerk, andere Computer oder ein anderes
elektronisches Gerät
anzuzeigen oder zu melden. Das Software-Werkzeug kann auch als Untersystem
in ein anderes System integriert werden. Solche Systeme enthalten
beispielsweise Call Center-/Kontakt-Center-Software oder -Hardware,
die Gespräche überwacht,
aufzeichnet oder analysiert, verschiedene Situations- und Personentrainer
oder jedes Überwachungs-,
Lehr- oder Feedback-System. Das Emotions-Softwarewerkzeug wird typischerweise
in einer Computerumgebung installiert, die typischerweise ein Mikrofon
(oder eine andere Eingabeschnittstelle), eine Abtast- und -digitalisiereinheit,
einen Prozessor, eine Anzeige (oder eine andere Ausgabe-Schnittstelle)
und jede andere relevante externe Schnittstelle enthält.
-
Es
versteht sich, daß die
vorliegende Erfindung einen sehr breiten Bereich möglicher
Anwendungen und Einsätze
hat. Einige der Möglichkeiten sind
nachfolgend lediglich beispielhalber aufgeführt. Die Verwendung der vorliegenden
Erfindung ist jedoch nicht auf die hier beschriebenen Anwendungen beschränkt.
-
Die
Emotionsüberwachung
kann dazu verwendet werden, Marketing, Verkäufe, Dienstleistungen und Beziehungen
mit Kunden, insbesondere in der Umgebung eines Call-Centers, zu verbessern. Überprüfung, Feedback
und Überwachung
der Emotionen bei Interaktionen bezüglich Dienstleistungen/Verkäufen können in
einer Echtzeitumgebung sowie mittels Offline-Analyse implementiert
werden. Die Überwachung
kann mit beiden oben beschriebenen Geräten implementiert werden: Sie
kann als Software-Tool in andere Call-Center-Produkte, wie z.B. Aufzeichnungs-Tools,
CRM (Customer Relation Management)-Produkte, Trainings-Tools oder E-Commerce-Software,
integriert werden. Sie kann als unabhängiges Software-Tool im Call-Center,
in CRM- oder E-Commerce-Umgebungen installiert und auch in verschiedene
Hardwarevorrichtungen in diesen Umgebungen als DSP-Chip-basierte Einheit integriert
werden. Eine kleine DSP-Chip-basierte Einheit kann auch als unabhängige kleine
Einheit zur Überwachung
von direkten Wechselwirkungen zwischen Verkäufer und Kunden verwendet werden.
-
Die
Emotionsüberwachung
kann dazu verwendet werden, das Ausbildungsverfahren für verschiedenes
berufliches Personal zu verbessern, indem das Bewußtsein für emotionale
sowie nicht-emotionale verbale Muster, wie sie über die Stimme eines Sprechers
ausgedrückt
werden, verbessert wird. Zusätzlich
kann das Überwachungs-Werkzeug
zu Demonstrationszwecken (Analyse von Sprachsegmenten mit unterschiedlichen Emotionen
und unterschiedlichen Emotions-Ausdrucksmustern) und zum Trainieren
der Kontrolle des Emotionsausdrucks (Feedback über die Emotionen eines Benutzers
plus Belohnung für
das Ändern
der Emotion oder des Ausdrucksmusters) verwendet werden.
-
Die
emotionale Überwachung
kann als unterstützendes
Werkzeug bei verschiedenen Personalführungsaufgaben, wie Vorstellungsgesprächen oder
Verhandlungen, in Meetings oder einfach auch im Gespräch und am
Telefon verwendet werden.
-
Das Überwachen
von Emotionen kann als zusätzliches
Werkzeug für
psychologische Tests und zur Diagnose und Behandlung bestimmter
Erkrankungen, einschließlich
beispielsweise psychischer Erkrankungen, nützlich sein. Diese Überwachung kann
während
Echtzeit-Gesprächen oder
bei einer Offline-Analyse eines aufgezeichneten Gesprächs durchgeführt und
bei direkten Interaktionen, oder wenn eine Interaktion über das
Telefon oder mittels Sprachtelekommunikation über das Internet erfolgt, eingesetzt
werden.
-
Auch
in der Werbung kann man von der emotionalen Überwachung profitieren, da
sie das Verfahren zur Messung und zur Bewertung des Verhaltens von
Personen mittels Fragebögen,
Fokussiergruppen und anderen Verfahren, deutlich aufwertet.
-
Die
emotionale Überwachung
kann zur Unterstützung
einer Sprachtherapie und dazu verwendet werden, die Entspannung
zu erhöhen
und größere Kontrolle über positive
und negative Gefühlszustände zu erreichen.
Die Änderung
des Gefühlszustandes
kann entweder als direktes Ergebnis eines verstärkten Bewußtseins oder durch ein Verfahren, das
einem Biofeedback-Mechanismus entspricht, erreicht werden. Eine
wichtige Anwendung kann darin bestehen, die zahlreichen Programme
zu unterstützen,
die auf eine Verringerung von gewalttätigem Verhalten bei Kindern
und Erwachsenen abzielen, wobei die Überwachung dazu beitragen kann,
Muster verbal ausgedrückter
Wut zu zeigen und zu ändern.
-
Der
Einsatz der Emotionsüberwachung
kann Computer- und Elektronikspielen, und zwar sowohl Lehr- wie
auch Freizeitprogrammen, eine zusätzliche Qualität verleihen.
Die Emotionsüberwachung
kann auch Teil von Spielwaren und Spielen sein, die mit einem Kind
interagieren und ihm seinen emotionalen Zustand wiederspiegeln.
-
Die
Emotionsüberwachung
gemäß der vorliegenden
Erfindung kann auch dazu eingesetzt werden, die Spracherkennung
bei verschiedenen Anwendungen zu verbessern und die Interaktion
zwischen einem Computer oder Roboter und seinem Benutzer zu verstärken, indem
das elektrische Gerät
auf die Gefühlszustände der
Menschen in seiner Umgebung reagieren kann.
-
Die
Emotionsüberwachung
kann auch als Werkzeug zum Erkennen gewisser mentaler Zustände mit
deutlichen Stimm-Charakteristiken, wie z.B. Ermüdung, eingesetzt werden.
-
Es
versteht sich, daß die
Erfindung nicht auf die oben lediglich beispielhalber gegebene Beschreibung
beschränkt
ist. Vielmehr ist die Erfindung ausschließlich durch die nachfolgenden
Ansprüche
eingeschränkt.