DE60210295T2

DE60210295T2 - Verfahren und vorrichtung zur sprachanalyse

Info

Publication number: DE60210295T2
Application number: DE60210295T
Authority: DE
Inventors: Yoav Degani; Yishai Zamir
Original assignee: VoiceSense Ltd
Current assignee: VoiceSense Ltd
Priority date: 2001-08-09
Filing date: 2002-08-07
Publication date: 2006-12-07
Anticipated expiration: 2022-08-08
Also published as: ES2261706T3; EP1423846B1; DE60210295D1; WO2003015079A1; IL144818A0; US7606701B2; CA2456625C; IL144818A; US20040249634A1; ATE322067T1; EP1423846A1; CA2456625A1

Description

Die vorliegende Erfindung bezieht sich auf das Gebiet der Stimm- und Sprechanalyse und insbesondere auf die Analyse von akustischen und prosodischen Sprechcharakteristiken.
Hintergrund der Erfindung
Es ist seit langem bekannt, daß bestimmte Stimm-Charakteristiken Informationen über den emotionalen Zustand des Sprechers geben. Bereits 1934 stellte Lynch Unterschiede hinsichtlich Timing- und Tonhöhencharakteristiken zwischen sachlicher und emotionaler Sprechweise fest (Lynch, G.E. (1934). A Phonophotographic Study of Trained and Untrained Voices Reading Factual and Dramatic Material, Arch. Speech, 1,9-25.)
Seither haben zahlreiche Studien Korrelationen zwischen verschiedenen nonverbalen Sprechcharakteristiken und bestimmten emotionalen Zuständen gezeigt, und Forschungsbemühungen wurden auf unterschiedliche Aspekte des Phänomens der emotionalen Sprechweise gerichtet. Eine Forschungsrichtung konzentriert sich auf die Identifikation der Träger von Emotionen im Sprechsignal, und Studien haben komplexe Korrelationsmuster zwischen Tonhöhe (Grundton der Stimme, abhängig von der Schwingungszahl der Stimmbänder pro Sekunde), Amplitude, Timing, Dauer, Tempo, Hüllkurven und anderen Sprechvariablen und dem emotionalen Zustand des Sprechers gezeigt. In einem zweiten Forschungsbereich wird versucht, den Ausdruck unterschiedlicher emotionaler Dimensionen beim Sprechen zu erforschen, und die Studien legen Korrelationen zwischen konstituierenden Elementen der Sprechweise und Dimensionen, die den emotionalen Zustand des Probanden kennzeichnen, nahe. Ein weiterer Forschungsansatz konzentriert sich auf die Offenlegung der unterschiedlichen Korrelationen zwischen Teilen der Sprechweise und verschiedenen emotionalen Zuständen, einschließlich primärer Emotionen, wie Wut, sekundärer Emotionen, wie z.B. Langeweile, und spezifischer Streßsituationen, wie z.B. Angst, Arbeitsbelastung und Lügen. Noch ein weiterer Forschungsbereich versucht, die Unterschiede hinsichtlich der emotionalen Sprechmuster zwischen verschiedenen Personen, verschiedenen Gruppen von Personen, die z.B. nach Geschlecht, Alter, Kultur und Persönlichkeitstyp unterteilt sind, und auch zwischen den Stimmustern, die unterschiedlichen physiologischen Zuständen derselben Personen entsprechen, aufzuzeigen.
Drei ausführliche Übersichtsartikel, welche die verschiedenen Erkenntnisse hinsichtlich des stimmlichen Ausdrucks von Emotionen zusammenfassen, wurden veröffentlicht von Murray, I. R. and Arnott, J.L., (1993), Towards the Simulation of Emotion in Synthetic Speech: A Review of the Literature on Human Vocal Emotion, Journal of the Acoustical Society of America, Nr. 93 (2), 1097-1108; von Frick, R. W. (1985), Communicating Emotion: The Role of Prosodic Features, Psychology Bulletin, 97, 412-429, und von Scherer, K. R. (1986), Vocal Affect Expression: A Review and a Model for Future Research, Psychology Bulletin, 99, 143-165. Alle diese Autoren betonen die Bruchstückhaftigkeit der Forschung auf diesem Gebiet und weisen darauf hin, daß die Stimmemotionsforschung nur einen sehr kleinen und isolierten Teil der allgemeinen Literatur über Emotionen und der allgemeinen Sprechanalyseliteratur bildet. Diese Besprechungen stützen zwar die Ansicht, daß Charakteristiken der menschlichen Stimme abhängig vom Ausdruck von Emotion variieren, betonen aber die Komplexität des Zusammenspiels zwischen Physiologie, Psychologie und Sprechweise hinsichtlich Emotionen. Ebenso betonen sie den Bedarf an verallgemeinerten Modellen für ein durchgängigeres Verständnis dieser Phänomene.
In den letzten Jahren haben sich mehrere Studien mit der Aufgabe einer automatischen Klassifikation des stimmlichen Ausdrucks unterschiedlicher emotionaler Zustände mittels Modellen zur Erkennung von statistischen Mustern befaßt. Dabei wurde ein gewisser Erfolg erzielt, siehe beispielsweise Dellaert, F., Polzin, T.S. und Waibel, A. (1996), Recognizing emotions in speech, Proc. ICSLP, Philadelphia PA, USA, 1996, und Amir, N. und Ron, S. (1998), Towards an automatic classification of emotions in speech, Proc. ICSLP, Sydney, 1998.
Das Gebiet der Emotionen beim Sprechen zieht zunehmendes Interesse auf sich, und im September 2001 fand in Belfast ein spezieller Workshop statt, der sich diesem Thema widmete (ISCA-Workshop: Sprache und Emotionen – vorgelegte Arbeiten: http://www.qub.ac.uk/en/isca/proceedings/index.html). Diese theoretischen wie auch empirischen Arbeiten zeigen einmal mehr die Komplexität des Phänomens, das Fehlen von Daten und die verschiedenen Aspekte, die beteiligt sind.
Bezüglich der Detektion von Emotionen durch Sprechanalyse stellt die Literatur mehrere noch zu lösende Probleme heraus. Zwei der Hauptprobleme seien hier hervorgehoben:
Das erste Problem ist das Fehlen eines vereinheitlichten Modells für emotional-akustische Korrelationen, welches das Herangehen an unterschiedlichen emotionalen Sprechgehalt mit einem allgemeinen Indikator ermöglicht; der aktuelle Forschungsstand läßt nur den Hinweis auf isolierte akustische Korrelationen mit spezifischen emotionalen Zuständen zu.
Das zweite Problem besteht in der Schwierigkeit, die unterschiedlichen Sprechausdrucksmuster unterschiedlicher Sprecher zu überwinden, welche die emotionalen Unterschiede meist maskieren. Frühere Forschungen versuchten dieses letztere Problem durch Gewinnen von Referenz-Sprechcharakteristiken der Testperson oder spezifischer Gruppen von Personen anzugehen. Dabei waren die Referenzen frühere Messungen des (nicht-emotionalen) Grundzustands eines spezifischen Probanden oder die spezifischen Profile emotionaler Sprechweise bei relativ homogenen Gruppen von Probanden, die z.B. alle unter Depressionen litten.
Mit den Jahren wurden auf diesem Gebiet mehrere Patente angemeldet. Diese Patente sind hauptsächlich dadurch gekennzeichnet, daß sie die gleichen Unzulänglichkeiten aufweisen, wie sie oben im Zusammenhang mit der akademischen Forschung beschrieben sind, nämlich, daß sie sich auf spezifische emotionale Zustände konzentrieren und sich auf vorherige Referenzmessungen stützen. Die Patente unterscheiden sich auch merklich in ihren Meßverfahren und -parametern.
In drei US-Patenten von 1974 ( US 3,855,416 ; US 3,855,417 und US 3,855,418 ) schlägt Fuller ein Verfahren vor zum Anzeigen von Streß anhand der Sprechweise und zur Feststellung, ob ein Proband lügt oder die Wahrheit sagt. Das vorgeschlagene Verfahren mißt den Vibrato-Anteil (rasche Modulation der Phonation) und die normalisierte Spitzenamplitude des Sprechsignals und ist insbesondere auf die Analyse der Sprechweise eines Probanden bei einer Befragung gerichtet.
Bell et. al. schlug 1976 (US-Patent Nr. 3,971,034) ebenfalls ein Verfahren zum Detektieren von psychologischem Streß anhand der Sprechweise vor. Das beschriebene Verfahren beruht hauptsächlich auf der Messung von Infraschall-Modulationsänderungen der Stimme.
In zwei Patenten von 1978 und 1979 ( US 4,093,821 und US 4,142,067 ) beschreibt Williamson ein Verfahren zum Bestimmen des emotionalen Zustandes einer Person mittels Analyse von Frequenzstörungen im Sprechmuster. Die Analyse beruht in erster Linie auf Messungen der ersten Formantenfrequenz der Sprache, wobei jedoch die Unterschiede, die den verschiedenen emotionalen Zuständen entsprechen, nicht eindeutig angegeben sind: Im ersten Patent zeigt die Vorrichtung in erster Linie Streß als Funktion der Entspannung an, während im zweiten Patent der Benutzer der Vorrichtung eine „visuelle Integration und Interpretation des angezeigten Ausgangssignals" anwenden sollte, um „gewisse Entscheidungen bezüglich des emotionalen Zustandes zu treffen".
Jones schlug 1984 (US-Patent Nr. 4,490,840) ein Verfahren zum Bestimmen von Mustern des Stimmklangs (Resonanz, Qualität), der Sprechweise (variabel/monoton, abgehackt/glatt usw.) und der Art des Eindrucks (sensorisch, intern, Haß/Liebe usw.) vor, die auf unterschiedlichen Stimm-Charakteristiken, einschließlich sechs spektraler Peaks und Pausen innerhalb des Sprechsignals, beruhen. Der Erfinder stellt jedoch fest, daß „das Vorliegen von spezifischem emotionalem Gehalt für die hier offenbarte Erfindung nicht von Interesse ist".
In zwei US-Patenten von 1987 und 1992 ( US 4,675,904 und US 5,148,483 ) schlägt Silverman ein Verfahren zum Detektieren einer suizidalen Prädisposition anhand der Sprechmuster einer Person vor, bei dem ein merklicher Abfall zum Schluß einer Äußerung und eine geringe Amplitudenmodulation während der Äußerung festzustellen sind.
1997 beschrieb Ron (US-Patent Nr. 5,647,834) ein sprachbasiertes Biofeedback-Regulierungssystem, mit dem ein Proband seinen emotionalen Zustand überwachen und verändern kann. Aus der Sprechweise des Probanden wird ein Emotionsindikatorsignal gewonnen (das Meßverfahren ist im Patent nicht beschrieben) und mit physiologischen Online-Messungen am Probanden verglichen, die als Referenz für seinen emotionalen Zustand dienen. Der Proband kann dann versuchen, das Indikatorsignal zu verändern, um seinen emotionalen Zustand unter Kontrolle zu bringen.
Bogdashevsky, et. al. schlagen in einem US-Patent von 1999 ( US 6,006,188 ) ein Verfahren zum Bestimmen der psychologischen oder physiologischen Merkmale eines Probanden aufgrund der Erzeugung eines spezifischen Wissensschatzes für gewisse psychologische und physiologische Zustände vor. Das beschriebene Verfahren umfaßt die Bildung homogener Gruppen von Testpersonen aufgrund ihrer psychologischen Beurteilung (z.B. Persönlichkeitsdiagnosegruppen gemäß psychologischen Gemeinsamkeiten), die Analyse ihrer unverwechselbaren Sprechmuster (aufgrund von Cepstral-Koeffizienten) und Erstellen spezifischer Wissensbasen für diese Gruppen. Die Zuordnung zu bestimmten psychologischen und physiologischen Gruppen kann durch Vergleichen der Sprechmuster einer Person (die aufgefordert wird, einen 30 Sätze langen Text ähnlich dem von der Referenzgruppe verwendeten Text zu sprechen) mit den Charakteristiken aus dem Wissensschatz der Gruppe erreicht werden. Das Patent beansprucht, eine verbalpsychologische Diagnose relativ stabiler Zustände zu ermöglichen, z.B. den mentalen Zustand vor und nach der Therapie, und das Persönlichkeitsprofil zu vergleichen.
Pertrushin beschrieb 2000 (US-Patent Nr. 6,151,571) ein Verfahren zur Überwachung eines Gesprächs zwischen einem Sprecherpaar, zur Detektion einer Emotion mindestens eines der Sprecher, zur Feststellung, ob die Emotion eine von drei negativen Emotionen (Wut, Trauer oder Angst) ist, und zum anschließenden Berichten der negativen Emotion an einen Dritten. Bezüglich des Emotionserkennungsprozesses gibt das Patent die für diese Ergebnisse erforderlichen Schritte näher an: Zunächst empfiehlt es die Durchführung eines Experimentes mit den Ziel-Probanden, um „zu bestimmen, welche Teile der Stimme besonders zuverlässig als Indikatoren von Emotionen sind". Es wird vorgeschlagen, eine Gruppe der zuverlässigsten Äußerungen dieses Experimentes als „Trainings- und Testdaten für die Mustererkennungsalgorithmen zu verwenden, die von einem Computer durchgeführt werden". Der zweite Schritt ist die Merkmalsextraktion für die emotionalen Zustände aufgrund der gesammelten Daten. Das Patent schlägt mehrere mögliche Merkmalsextraktionsverfahren unter Verwendung verschiedener Sprechcharakteristiken vor. Der dritte Schritt besteht in der Erkennung der Emotionen, ausgehend von den extrahierten Charakteristiken. Es werden zwei Ansätze angeboten – neurale Netzwerke und Gruppen von Klassifikatoren. Die zuvor gesammelten Datensätze (welche die Emotionen darstellen) können dazu verwendet werden, den Algorithmus auf die korrekte Bestimmung der Emotionen zu trainieren. Es werden beispielhafte Vorrichtungen sowie Verfahren zur verbesserten Emotionserkennung vorgestellt.
In einem US-Patent von 2001 ( US 6,173,260 ) beschreibt Slaney ein System zur Klassifikation von emotionaler Sprechweise. Das beschriebene System beruht auf einem empirischen Verfahren, mit welchem die beste Kombination von Sprechcharakteristiken (unterschiedliche Meßwerte für Tonhöhe und spektrale Hüllkurve) extrahiert wird, die eine bestimmte Gruppe von sprachlichen Äußerungen charakterisiert, welche gemäß vordefinierten Klassen von Emotionen bezeichnet werden. Nachdem das System auf die vorgegebene Gruppe von Äußerungen „trainiert" wurde, kann es die extrahierten Charakteristiken zur weiteren Klassifikation anderer Äußerungen nach diesen Klassen von Emotionen verwenden. Das Verfahren stellt jedoch keinen allgemeinen emotionalen Indikator bereit und geht nur davon aus, daß unterschiedliche emotionale Charakteristiken für unterschiedliche emotionale Situationen empirisch extrahiert werden können.
Zwei veröffentlichte PCT-Anmeldungen von Liberman beziehen sich ebenfalls auf Emotionen beim Sprechen. Liberman schlug 1999 (WO 99/31653) ein Verfahren zum Bestimmen gewisser emotionaler Zustände, einschließlich Zuständen, die mit emotionalem Streß und Lügen zusammenhängen, wie z.B. Unaufrichtigkeit, Verwirrung und Unsicherheit, psychologische Dissonanz, Sarkasmus, Übertreibung, anhand der Sprechweise bereit. Das Verfahren beruht auf der Messung von Sprechbetonungsinformationen, insbesondere Plateaus und Zacken der Sprechsignal-Hüllkurve, unter Verwendung früherer Äußerungen des Sprechers als Grundzustandsreferenz.
Liberman beschrieb 2000 (WO 00/62270) eine Vorrichtung zur Überwachung unbewußter emotionaler Zustände einer Person anhand von Sprechmustern, die einem Stimmanalysator per Telefon zugeführt wurden. Die Emotionsindikatoren umfassen einen Pegel unterbewußter kognitiver Aktivität, einen Pegel unterbewußter emotionaler Aktivität, einen Antizipationspegel, einen Aufmerksamkeitspegel, einen „Love Report" und sexuelle Erregung. Das verwendete Verfahren beruht auf einer Frequenzspektralanalyse der Sprechweise, bei der das Frequenzspektrum in vier Frequenzbereiche unterteilt ist, und es wird beansprucht, daß ein höherer Prozentsatz von Frequenzen in einem der Bereiche eine Dominanz eines der obigen emotionalen Zustände widerspiegelt. Es wird nahegelegt, daß die kognitive Aktivität mit den niedrigsten Frequenzen korreliert, die Aufmerksamkeit/Konzentration mit den Hauptspektralfrequenzen, die emotionale Aktivität mit hohen Frequenzen und der Antizipationspegel mit den höchsten Frequenzen korrelieren.
Die meisten der oben erwähnten Patente (Fuller, Bell, Jones, Silverman und Liberman) identifizieren spezifische emotionale Zustände, wie Streß, Lügen oder eine Suizidneigung durch Korrelation spezifischer Sprechcharakteristiken mit diesen emotionalen Zuständen. Zwei dieser Patente (Williamson, Ron) gehen davon aus, daß die entsprechenden Sprechkorrelationen der emotionalen Zustände als Eingangsgrößen vorgegeben sind, und lassen dabei die Aufgabe der Beschreibung eines allgemeinen Indikators für emotionale Sprechcharakteristiken völlig außer acht. Drei der Patente (Bogdashevsky, Petrushin und Slaney) schlagen Verfahren zur Extraktion spezifischer Sprechkorrelationen durch „Erlernen" bestimmter emotionaler Klassen von Sprachäußerungen vor. Somit schlägt keines der zuvor erwähnten Patente einen verallgemeinerten, auf der Sprechweise basierenden Indikator emotionaler Erregung an sich vor, der den sprachlichen Ausdruck der emotionalen Reaktion beschreibt, die durch eine große Vielzahl unterschiedlicher emotionaler Zustände erzeugt wird.
Ferner muß bei manchen dieser Patente (Fuller, Williamson) ein qualifizierter Fachmann die Ergebnisse manuell analysieren, um die Unterschiede zwischen einzelnen Personen zu überwinden. Andere Patente (Ron, Liberman) erfordern einen Vergleich der Sprachmeßwerte des Probanden vor den Grundzustandsmessungen derselben Person als Referenz. Bei anderen Patenten (Bogdashevsky, Petrushin und Slaney) ist ein vorheriger Lernprozeß für die Sprechcharakteristiken spezifischer Gruppen von Personen oder spezifischer psychologischer Phänomene, die als Referenz verwendet werden sollen, erforderlich.
Somit legt keines der oben besprochenen Patente dieses dicht gedrängten Standes der Technik einen emotionalen Sprechindikator nahe, der robust ist und über unterschiedliche Emotionen und über die Unterschiede zwischen spezifischen Einzelpersonen und spezifischen Gruppen hinweg Gültigkeit hat. Die vorliegende Erfindung ist auf die Schaffung eines solchen robusten, allgemeinen Indikators für emotionale Erregung mittels Sprechanalyse gerichtet, der unabhängig von den Unterschieden zwischen Testpersonen und besonderen Emotionstypen ist, aber auf emotionale Erregung an sich anspricht.
Zusammenfassung der Erfindung
Die vorliegende Erfindung ist auf die Bereitstellung eines allgemeinen Indikators für die emotionale Erregung eines Probanden mittels Sprechanalyse gerichtet, der bei einer breiten Vielfalt unterschiedlicher emotionaler Zustände anwendbar ist. Dieser emotionale Sprechindikator ist über die Sprechmusterunterschiede zwischen bestimmten Personen oder Personengruppen hinaus gültig und erfordert keinen Vergleich einer Sprechprobe eines Probanden mit einer zuvor erhaltenen Referenz-Sprechprobe desselben Probanden.
Gemäß der vorliegenden Erfindung wird ein Verfahren nach Anspruch 1 bereitgestellt, zum Feststellen emotionaler Erregung eines Probanden durch Sprechanalyse, das die Schritte umfaßt: Gewinnen eines Sprechmusters; Vorverarbeiten des Sprechmusters zu stillen und zu aktiven Sprachsegmenten und Unterteilen der aktiven Sprachsegmente in Sequenzen gleichlanger Blöcke; wobei die Blöcke primäre Sprechparameter aufweisen, die Tonhöhen- und Amplitudenparameter einschließen; Herleiten mehrerer ausgewählter sekundärer Sprechparameter, die Charakteristiken von Tendenzen gleichbleibender Tonhöhe, steigender Tonhöhe und fallender Tonhöhe in den Sequenzen von Blöcken anzeigen; Vergleichen der sekundären Sprechparameter mit vordefinierten, vom Probanden unabhängigen Werten, die eine nicht-emotionale Sprechweise darstellen, um ein Verarbeitungsergebnis zu erzeugen, das emotionale Erregung anzeigt, und Ausgabe des erzeugten Verarbeitungsergebnisses an eine Ausgabevorrichtung, wobei die mehreren ausgewählten sekundären Sprechparameter aus der folgenden Liste ausgewählt sind: durchschnittliche Pausenlänge und/oder Pausenfrequenz; durchschnittliche Länge kurzer stiller Abschnitte und/oder Frequenz kurzer stiller Abschnitte und/oder Frequenz kurzer stiller Abschnitte; durchschnittliche Länge von Segmenten gleichbleibender Tonhöhe und/oder Frequenz von Segmenten gleichbleibender Tonhöhe; durchschnittliche Länge von Segmenten steigender Tonhöhe und/oder Frequenz von Segmenten steigender Tonhöhe und/oder durchschnittliche Länge von Segmenten fallender Tonhöhe und/oder Frequenz von Segmenten fallender Tonhöhe und Durchschnittsamplitudenstreuung innerhalb von Sprachsegmenten gleichbleibender Tonhöhe. Vorzugsweise umfaßt das Herleitungsverfahren ferner das Herleiten einer Vielzahl ausgewählter sekundärer Sprechparameter, die Pausen- und Stillecharakteristiken der zu analysierenden Sprechprobe anzeigen, gegebenenfalls einschließlich des Analysierens von Unregelmäßigkeiten von Tempo und Rhythmus, Tonhöhe und Amplitude der zu analysierenden Sprechprobe.
Der Schritt des Gewinnens einer Sprechprobe umfaßt gegebenenfalls den Schritt der Eingabe einer digitalen Stimmdatei. Alternativ dazu umfaßt der Schritt des Gewinnens einer Sprechprobe den Schritt des Erfassens von Sprechproben und des Abtastens und Digitalisierens der Sprechproben in einer Stimmabtast- und -digitalisiereinheit zum Erzeugen einer digitalisierten Stimmdatei.
Der Schritt des Vorverarbeitens umfaßt gegebenenfalls: Gewinnen digitalisierter Stimmuster, Normalisieren der Stimmuster, Datenfilterung, Rauschunterdrückung, Segmentieren der Stimmuster in Stille- und Sprachsegmente, Unterteilen der Sprachsegmente in Blöcke und Verarbeiten der Blöcke durch Autokorrelation, um Tonhöhen- und Amplituden-Sprechparameter blockweise zu berechnen.
In einer Ausführungsform kann das oben beschriebene Verfahren dazu eingerichtet sein, ein Sprechsignal zu analysieren, das mehrere interagierende Stimmen enthält, wobei das Verfahren ferner die folgenden zusätzlichen Schritte umfaßt: Trennen der interagierenden Stimmen in separate Stimmkanäle; Durchführen einer Muster-Normalisierung für jeden interessierenden Kanal; Durchführen einer Datenfilterung für jeden interessierenden Kanal; Durchführen einer Rauschunterdrückung für jeden interessierenden Kanal; Durchführen einer Stille- und Sprachsegmentierung und Unterteilen der Sprachsegmente in Blöcke für jeden interessierenden Kanal, sowie eine Autokorrelations-Verarbeitung, um Tonhöhen- und Amplituden-Sprechparameter blockweise für jeden interessierenden Kanal zu berechnen.
Gegebenenfalls umfaßt der Herleitungsschritt das Markieren eines Sprachsegmentes einer vordefinierten Länge zum Verarbeiten; das Berechnen von auf Pausen bezogenen Parametern für das Sprachsegment; das Berechnen von auf Stille bezogenen Parametern für das Sprachsegment; das Zusammenfügen von Blöcken zu Sequenzen von Blöcken, die als Sequenzen von Blöcken mit Tendenzen steigender Tonhöhe, Sequenzen von Blöcken mit Tendenzen fallender Tonhöhe und Sequenzen von Blöcken mit Tendenzen gleichbleibender Tonhöhe kategorisiert werden; das Berechnen von auf die Tonhöhe bezogenen Parametern innerhalb des Sprachsegmentes, wobei die auf die Tonhöhe bezogenen Parameter aus der Liste von Frequenz und durchschnittlicher Länge von Sequenzblöcken, die dadurch gekennzeichnet sind, daß sie Tendenzen steigender, fallender oder gleichbleibender Tonhöhe haben, und Durchschnittsamplitudenstreuung von Sequenzen von Blöcken mit gleichbleibender Tonhöhe ausgewählt sind, und Einteilen des Sprachsegmentes in eine von mehreren Kategorien eines typischen Parameterbereichs.
Der Schritt des Vergleichens der sekundären Sprechparameter mit vordefinierten, vom Probanden unabhängigen Werten, die eine nicht-emotionale Sprechweise darstellen, um ein Verarbeitungsergebnis zu erzeugen, das emotionale Erregung anzeigt, umfaßt gegebenenfalls das Vergleichen wenigstens zweier sekundärer Stimmparameter-Kategorien mit vordefinierten Werten, die eine nicht-emotionale Sprechweise darstellen, wobei die Kategorien aus der folgenden Liste ausgewählt sind: durchschnittliche Länge von Pausen und/oder Frequenz von Pausen; durchschnittliche Länge kurzer stiller Abschnitte und/oder Frequenz kurzer stiller Abschnitte; durchschnittliche Länge von Segmenten gleichbleibender Tonhöhe und/oder Frequenz von Segmenten gleichbleibender Tonhöhe; durchschnittliche Länge von Segmenten steigender Tonhöhe und/oder Frequenz von Segmenten steigender Tonhöhe und/oder durchschnittliche Länge von Segmenten fallender Tonhöhe und/oder Frequenz von Segmenten fallender Tonhöhe und Durchschnittsamplitudenstreuung innerhalb von Sprachsegmenten gleichbleibender Tonhöhe.
Gegebenenfalls umfaßt das Verfahren ferner das Berechnen eines Zuverlässigkeitsgrades auf Basis wenigstens eines Faktors, der aus der folgenden Liste ausgewählt ist: Qualität des Stimmsegments; Signifikanz der Entscheidung über emotionale Erregung und Übereinstimmung spezifischer Segmentergebnisse mit Ergebnissen früherer Sprachsegmente.
Die Qualität des Stimmsegmentes wird vorzugsweise anhand des Rauschpegels, der Größe der abgetasteten Daten und der Qualität der abgetasteten Daten bestimmt.
Vorzugsweise wird die Signifikanz der Entscheidung über emotionale Erregung auf Basis einer Anzahl beteiligter Parameter und eines Grades der Abweichung innerhalb jedes Parameters bestimmt.
Gegebenenfalls gibt es einen zusätzlichen Schritt der Musterverarbeitung, um emotionale Muster zu erfassen, die entlang einer Zeitachse deutlich werden.
Gemäß einem zweiten Aspekt ist die vorliegende Erfindung auf eine Vorrichtung mit Mitteln zum Ausführen des Sprechanalyseverfahrens gemäß Anspruch 1 gerichtet, wobei die Vorrichtung umfaßt: eine Stimmeingabeeinheit; eine Vorverarbeitungseinheit, die Stimmuster von der Stimmeingabeeinheit vorverarbeitet; eine Hauptverarbeitungseinheit, die die vorverarbeiteten Stimmuster verarbeitet und emotionale Erregung daraus erfaßt, und eine Hauptindikatoren-Ausgabeeinheit, die eine Anzeige emotionaler Erregung ausgibt.
Die Stimmeingabeeinheit enthält gegebenenfalls eine Stimmerfassungseinheit und eine Stimmabtast- und -digitalisiereinheit, die mit der Stimmerfassungseinheit gekoppelt ist, um erfaßte Stimmeingaben abzutasten und zu digitalisieren.
Wahlweise enthält die Stimmeingabeeinheit ein Mikrofon, eine Schnittstelle zu einer Audio-Wiedergabeeinrichtung, eine Schnittstelle zu einem Schnurtelefon, einem schnurlosen Telefon oder einem Mobiltelefon, eine Schnittstelle zum Internet oder einem anderen Netzwerk, eine Schnittstelle zu einem Computer, eine Schnittstelle zu einem elektronischen Personal Organizer oder zu jedem beliebigen anderen elektronischen Gerät oder eine Schnittstelle zu einem Spielzeug.
Die Stimmabtast- und -digitalisiereinheit ist vorzugsweise aus einer Soundkarte oder einer Stimmabtast- und -digitalisiereinrichtung auf Basis eines DSP-Chips ausgewählt.
Vorzugsweise ist die Hauptindikatoren-Ausgabeeinheit aus einer lokalen Ausgabeeinrichtung, einer Anzeigeeinrichtung, einem Lautsprecher, einer Datei, einer Speichereinheit oder einer Überwachungseinrichtung oder einer Schnittstelle zu einem entfernten Computer, zum Internet, zu einem anderen Netzwerk, zu einem Schnurtelefon, einem schnurlosen Telefon oder einem Mobiltelefon, zu einem Computerspiel, zu einem Spielzeug, zu einem elektronischen Personal Organizer oder zu jedem beliebigen anderen elektrischen Ausgabegerät ausgewählt.
Alle der vorgenannten Einheiten sind wahlweise auf einer kleinen mobilen Einheit auf Basis eines DSP-Chips installiert. Alternativ dazu kann ein Teil der Einheiten physisch von anderen Einheiten entfernt sein und die Vorrichtung des weiteren eine Schnittstelle umfassen, die eine Datenkommunikation zwischen den Einheiten ermöglicht.
Die Vorverarbeitungs- und die Verarbeitungseinheit können alternativ in einem Softwarewerkzeug enthalten sein, das in eine externe Quelle für digitalisierte Stimmeingabe und in eine externe Ausgabeeinrichtung integrierbar ist.
Mit primären Sprechparametern sind, so wie der Begriff hier verwendet wird, absolute Werte von Parametern, wie Tonhöhe oder Intensität, gemeint. Unter sekundären Sprechparametern ist die Veränderung der absoluten Werte der hier verwendeten Parameter zu verstehen. Somit sind sekundäre Sprechparameter abgeleitete Statistiken, die allgemein weniger Kultur-, Alters- und Geschlechtsunterschieden, Hintergrundinterferenz, der Qualität des analysierten Signals und anderen Verzerrungsfaktoren unterliegen, und die sekundären Sprechparameter, die zum Anzeigen von emotionaler Erregung bei bevorzugten Ausführungsformen der vorliegenden Erfindung verwendet werden, sind so gewählt, daß sie besonders robust sind, wobei sie geringe Sensibilität gegenüber Unterschieden zwischen Personen und gegenüber Hintergrundinterferenz aufweisen.
Kurze Beschreibung der Zeichnungen
Die vorliegende Erfindung ist anhand der folgenden detaillierten Beschreibung noch besser zu verstehen und zu würdigen. Es zeigen:
1 ein Blockschema einer Vorrichtung, die gemäß einer Ausführungsform der vorliegenden Erfindung gebaut und betreibbar ist;
2 ein Ablaufschema einer Vorverarbeitungseinheit, die gemäß einer Ausführungsform der vorliegenden Erfindung gebaut und betreibbar ist; und
3 ein Ablaufschema einer Hauptverarbeitungseinheit, die gemäß einer Ausführungsform der vorliegenden Erfindung gebaut und betreibbar ist.
Detaillierte Beschreibung der Erfindung
Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Detektion von emotionaler Erregung mittels Sprechanalyse. Der Begriff emotionale Sprechweise" wird hier im Zusammenhang mit einem Sprachsegment verwendet, in dem der Sprecher sich in einer emotionalen Weise ausdrückt. Eine nicht-emotionale Sprechweise bezieht sich auf ein Sprachsegment, in dem der Sprecher sich nicht-emotional ausdrückt. Frühere Beschreibungen von Erfahrungen oder Gefühlen oder künftige Erwartungen erwünschter oder unerwünschter Ereignisse können nur dann als emotionale Sprechweise betrachtet werden, wenn das tatsächliche beschriebene oder gewünschte Gefühl oder Ereignis aktuell emotional ausgedrückt wird. Die oben besprochenen Druckschriften und Patente untermauern eindeutig das Phänomen, daß unterschiedliche emotionale Zustände, wenn sie stimmlich ausgedrückt werden, die Sprechcharakteristiken eines Probanden im Vergleich zu den Charakteristiken einer nicht-emotionalen Sprechweise verändern. Allerdings ist die Bereitstellung eines allgemeines Indikators, der den Grad der emotionalen Erregung einer Person mittels Sprechanalyse bestimmen kann, noch immer eine sehr schwierige Aufgabe, was hauptsächlich durch drei Faktoren bedingt ist:

1. unterschiedliche emotionale Zustände beeinflussen die Sprechcharakteristiken einer Person in unterschiedlicher Weise;
2. Stimm- und Sprechcharakteristiken unterscheiden sich von einer Person zur anderen merklich;
3. eine unterschiedliche emotionale Intensität (derselben Emotion) beeinflußt unterschiedliche Elemente der Sprechweise in unterschiedlichem Maße.

Um den Effekt dieser Faktoren zu überwinden, folgen die meisten bestehenden Forschungsarbeiten und Patente zwei Richtlinien: Sie trennen die Messung unterschiedlicher Arten von Emotionen und verwenden frühere Proben, um einen vergleichbaren Referenz-Grundzustand zu erhalten.
Die vorliegende Erfindung schlägt ein Verfahren zur automatischen Echtzeit-Sprechanalyse vor, um das Vorliegen eines Grades allgemeiner emotionaler Erregung eines Probanden zu einem bestimmten Zeitpunkt, jenseits spezifischer emotionaler Zustände und spezifischer Unterschiede zwischen einzelnen Personen, ohne Verwendung eines für den Probanden selbst spezifischen Referenz-Sprechgrundzustandes, anzuzeigen.
Der Wegfall des Erfordernisses eines spezifischen Referenz-Grundzustandes, die Verallgemeinerung von Stimm-Charakteristiken bei emotionaler Erregung jenseits spezifischer emotionaler Zustände, und das Emotionsdetektionsverfahren auf der Grundlage von Tonhöhen-Trends innerhalb des Sprachsegmentes sind drei neue Merkmale der vorliegenden Erfindung.
1. Emotionale Erregung jenseits spezifischer emotionaler Zustände
Eine zentrale Annahme, die der vorliegenden Erfindung zugrunde liegt, besteht darin, daß eine nicht-emotionale Sprechweise einen Gleichgewichtszustand und eine emotionale Sprechweise eine Abweichung von diesem Gleichgewicht reflektiert. Emotionale Erregung ist bekanntlich eine Abweichung von einem physiologischen Gleichgewicht bei gewissen emotionalen Zuständen, wie z.B. Streß. Sie drückt sich in Veränderungen autonomer Systemvariablen, wie Herzfrequenz, Muskelaktivität, galvanischer Hautwiderstand, Blutdruck und Bluttemperatur, aus. Entsprechend wird vorgeschlagen, daß die Änderungen der Sprechmuster bei emotionaler Erregung eine Abweichung vom ausgeglichenen, geordneten, nicht-emotionalen Zustand wiederspiegeln, und die vorliegende Erfindung beruht auf dem Prinzip, daß die Sprechcharakteristiken bei emotionaler Erregung weniger systematisch und ungeordneter sind als die Charakteristiken einer nicht-emotionalen Sprechweise. Die Abweichung vom geordneten Sprechrhythmus, die extremer emotionaler Erregung oder Aufregung entspricht, wie z.B. Weinen oder Schreien, ist für die meisten Zuhörer deutlich. Es gibt ähnliche, entsprechende Veränderungen der geordneten Sprechmuster, die ebenfalls geringfügige Erregungsniveaus ausdrücken.
Obwohl unterschiedliche emotionale Zustände unterschiedliche Sprechcharakteristiken erzeugen können, liegt es nahe, daß ein gemeinsamer Faktor von Sprechcharakteristiken vieler unterschiedlicher, emotional erregter Zustände in der Unregelmäßigkeit der Sprechmuster im Vergleich zur systematischeren Natur einer nicht-emotionalen Sprechweise liegt. Gleichermaßen wird, wenn gleich unterschiedliche Personen, die emotional erregt oder aufgeregt sind, unterschiedliche Sprechcharakteristiken aufweisen können, nichtsdestotrotz davon ausgegangen, daß all diesen emotional erregten Personen im Vergleich zu ihren allgemeinen, nicht emotional erregten Sprechmustern weniger geordnete Sprechmuster gemeinsam sind. Die vorliegende Erfindung konzentriert sich auf die Bestimmung dieses gemeinsamen Faktors als Indikator, der die allgemeine emotionale Erregung einer Person herausstellt.
Wie in der Literatur berichtet wurde, stellte man fest, daß der Ausdruck unterschiedlicher emotionaler Zustände mit spezifischen Sprechcharakteristiken korreliert. Wir hingegen gehen hier davon aus, daß zwei Arten von Variablen, nicht aber spezifische emotionale Zustände, eine „emotionale Erregung" selbst allgemein charakterisieren. Die erste Variable, die hier als Vorliegen konstanter Tonhöhe bezeichnet wird, ist der Grad des Vorliegens von Zeiträumen mit gleichbleibender Tonhöhe innerhalb des Sprachsegmentes, und die zweite Variable ist der Übereinstimmungsgrad unterschiedlicher Sprechcharakteristiken, der ein Maß für den Ordnungszustand des Sprechmusters ist.
Vorliegen einer konstanten Tonhöhe: Als Faustregel wird hier davon ausgegangen, daß eine emotionale Sprechweise durch ein selteneres Vorliegen von Perioden mit gleichbleibender Tonhöhe und durch ein häufigeres Vorliegen von Perioden mit sich verändernder (steigender oder fallender Tonhöhe) gekennzeichnet ist, was bedeutet, daß eine emotionale Sprechweise eine kleinere Anzahl pro Sekunde und eine kürzere mittlere Länge von Perioden mit gleichbleibender Tonhöhe innerhalb des Sprachsegmentes im Vergleich zur regulären, nicht-emotionalen Sprechweise zeigt. Es sei angemerkt, daß wir nicht davon ausgehen, daß eine emotionale Sprechweise stets durch eine höhere Tonhöhenvariation/einen höheren Tonhöhenbereich oder durch eine größere Häufigkeit von Tonhöhen-Richtungsänderungen (steigend/fallend) innerhalb des Sprachsegmentes gekennzeichnet ist, da diese letzteren Variablen mehr durch spezifische emotionale Zustände, durch individuelle Unterschiede und durch die Sprechlautstärke beeinflußt werden. Im Gegensatz dazu legen wir nahe, daß die Parameter für das Vorliegen einer konstanten Tonhöhe weniger durch die zuvor erwähnten Einflußfaktoren beeinflußt werden, als die Parameter für eine größere Tonhöhenänderung/einen größeren Tonhöhenbereich/eine größere Häufigkeit von Veränderungen. Folglich sind sie deutliche Anzeichen für emotionale Erregung.
Übereinstimmungsgrad unterschiedlicher Sprechcharakteristiken: Wie zuvor erwähnt, wird davon ausgegangen, daß eine Unregelmäßigkeit bei Sprechmustern sich auf einen emotionalen Ausdruck bezieht.
Das allgemeine, weniger geordnete Verhalten von Sprechcharakteristiken zeigt sich anhand einer geringeren Übereinstimmung mehrerer Sprechvariablen, wie der Länge und Verteilung von Abständen zwischen aufeinanderfolgenden Pausen und stillen Abschnitten, die Länge der Pausen und der stillen Abschnitte selbst und die Länge, Häufigkeit und Verteilung unterschiedlicher nicht-stiller Abschnitte (z.B. die Länge der Zeiträume mit steigender bzw. fallender Tonhöhe). Wie bei der Messung des Vorliegens von gleichbleibender Tonhöhe liegt die Betonung auf der Messung von Ereignissen auf der Zeitskala – Anzahl pro Sekunde, Längen, Abstände und Verteilung spezifischer Sprechvariablen oder gruppierter Perioden innerhalb des Sprachsegmentes. Diese Zeit-basierten Variablen werden allgemein weniger durch Einfluß- und Störfaktoren beeinflußt, als die Variablen der Tonhöhe und Amplitude. Die Erkennung einer Kombination von Abweichungen einiger dieser Variablen gegenüber einer geordneten Sprachstruktur kann die Unregelmäßigkeit von Sprechmustern aufdecken, die im Zusammenhang mit emotionaler Erregung steht.
2. Überwindung des Effektes individueller Sprechmuster
Wie hier zuvor erwähnt, unterscheiden sich Stimm- und Sprechmuster von einer Person zur anderen deutlich. Einige dieser Unterschiede sind allgemeiner Art. Beispielsweise hat die Sprechweise von Frauen statistisch gesehen eine höhere Tonhöhe als die Sprechweise von Männern. Andere Unterschiede sind spezifischer. Beispielsweise hat die Sprechweise einer Person eine typische Tonhöhen-Charakteristik dieser Person, und es gibt zahlreiche andere Sprachtendenzen, welche die Sprechweise bestimmter Personen charakterisieren, wie z.B. eine monotone Sprechweise, eine stockende Sprechweise usw.
Bei den Ausführungsformen der vorliegenden Erfindung macht die Bestimmung des allgemeinen Niveaus emotionaler Erregung des Probanden, um die Abweichungseffekte aufgrund der allgemeinen Charakteristiken der Sprechmuster der Person zu überwinden, selektiven Gebrauch von sekundären Stimm-Tonhöhenparametern und selektiven Gebrauch von sekundären Stimm-Amplitudenparametern.
Verwendung sekundärer und nicht primärer Sprechparameter: Bei der Sprechanalyse gemäß Ausführungsformen der vorliegenden Erfindung werden vorwiegend sekundäre Stimm- und Sprechparameter verwendet und primäre Parameter außer acht gelassen.
Für die Zwecke dieser Anmeldung impliziert der Begriff sekundäre Stimmparameter solche Parameter, wie sie von den primären Tonhöhen- und Amplitudenparametern hergeleitet sind, nicht aber die primären Parameter selbst. Primäre Parameter werden durch die Unterschiede zwischen Personen deutlich beeinflußt und daher bei gemäß der vorliegenden Erfindung durchgeführten Analysen nicht oder zumindest nicht ins Gewicht fallend berücksichtigt. Somit wird der Stimmfrequenzwert oder die Tonhöhe selbst allgemein nicht als Parameter verwendet, da er/sie zwischen unterschiedlichen Menschen merklich variiert. Tonhöhenänderungen innerhalb der Sprachsegmente werden jedoch betont, da sie keine absoluten Werte, sondern relative Werte beisteuern und daher weniger durch die Unterschiede zwischen einzelnen Personen beeinflußt sind.
Selektive Verwendung sekundärer Stimm-Tonhöhenparameter: Sekundäre Stimmparameter sprechen ebenfalls bis zu einem gewissen Grad auf die Unterschiede zwischen Sprechmustern unterschiedlicher Personen an. Die Sprechverarbeitung der vorliegenden Erfindung läßt den Großteil der sekundären Parameter außer acht, die von diesen Unterschieden am meisten betroffen sind.
Ein Beispiel für einen sekundären Stimm-Tonhöhenparameter, der nicht verwendet wird, ist der Bereich der Tonhöhenveränderung. Dieser wird als sekundärer Parameter betrachtet, da er nur die relativen Veränderungen der Tonhöhe des Sprechers, nicht aber die Tonhöhe selbst wiedergibt. Da dieser Parameter jedoch stark mit dem tatsächlichen Tonhöhenwert korreliert, wird er häufig von den Unterschieden zwischen Personen, nicht aber vom Zustand der emotionalen Erregung selbst, deutlich beeinflußt. Folglich läßt die Sprachverarbeitung gemäß der vorliegenden Erfindung typischerweise diesen Parameter und ebenso andere sekundäre Parameter, die je nach Individuum stark variieren, außer acht.
Selektive Verwendung sekundärer Stimm-Amplitudenparameter: Zahlreiche Stimmamplituden-Parameter, und zwar sowohl primäre wie auch sekundäre, werden mehr durch Sprachunterschiede zwischen einzelnen Personen beeinflußt als die Tonhöhen-Parameter. Amplitudenparameter unterliegen auch stark der allgemeinen Qualität des analysierten Stimmsignals und werden durch Umwelteinflüsse, wie Interferenz, akustisches Rauschen und elektronisches Rauschen im Zusammenhang mit den verschiedenen Bauteilen der Analysegeräte, nachteilig beeinflußt. Folglich wird bei der Feststellung des Vorliegens von emotionaler Erregung gemäß der vorliegenden Erfindung wenig Gewicht auf primäre wie auch sekundäre Amplitudenparameter gelegt.
3. Überwinden der Intensitätseffekte
Zwar wird die Intensität der emotionalen Erregung eines Probanden manchmal durch die Intensität (Lautstärke) des Sprechens selbst angezeigt, doch ist dies nicht immer der Fall. Wenn eine Person beispielsweise wütend schreit, nehmen üblicherweise Stimm-Tonhöhe, Stimmamplitude und Sprechgeschwindigkeit zu, was auch zu einer entsprechenden Zunahme der zahlreichen sekundären Sprechparameter führt, wobei das Sprechprofil einer Person, die wütend schreit, sich jedoch sehr stark vom Sprechprofil einer Person unterscheiden kann, die eine weniger aufgeregte Form von Wut zeigt, obwohl beide eine emotionale Erregung wiedergeben. Beispielsweise gibt es Menschen, die ihre Wut dadurch zeigen, daß sie ruhig und bedacht sprechen.
Die vorliegende Erfindung konzentriert sich auf die Detektion emotionaler Erregung an sich, und nicht nur intensiver emotionaler Erregung oder emotionaler Erregung, die einer bestimmten Emotion entspricht. Da Unterschiede in der Sprechlautstärke, die nicht mit einer emotionalen Erregung im Zusammenhang stehen, zudem die Sprechcharakteristiken störend beeinflussen können, beispielsweise dadurch, daß sie den Flüchtigkeitsgrad bestimmter Sprechparameter beeinflussen, ist es wichtig, die Effekte der Sprechlautstärke auf die Sprachverarbeitung möglichst zu minimieren. Dies kann dadurch erreicht werden, daß man den gleichen Richtlinien folgt, wie sie oben im Zusammenhang mit dem Überwinden der Effekte individueller Sprechmuster angegeben sind, einschließlich der wahlweisen Verwendung von in erster Linie sekundären Tonhöhen- und Amplitudenparametern. Dennoch wird, um die Empfindlichkeit der Verarbeitung gegenüber der Wirkung der Stimmlautstärke noch weiter zu verringern, vorzugsweise eine zusätzliche Verarbeitung durchgeführt. Der Haupteinfluß, den die hörbare Sprechlautstärke auf das Sprechen hat, besteht darin, die Bereiche ihrer Parameter zu vergrößern oder zu verkleinern. Folglich wird bei der Sprachverarbeitung der vorliegenden Erfindung allgemein eine Anfangsklassifikation jedes verarbeiteten Sprachsegmentes gemäß einer von mehreren typischen Parameterbereichs-Verhaltensklassen durchgeführt. Diese anfängliche Klassifikation ermöglicht die Anwendung unterschiedlicher Kriterien zur Bestimmung des Vorliegens von emotionaler Erregung in unterschiedlichen Parameter-Bereichsklassen bei der Verarbeitung.
4. Bestimmung des Vorliegens von emotionaler Erregung
Wie zuvor erwähnt, wurde festgestellt, daß nach Minimierung der unterschiedlichen verfälschenden Effekte die Sprechcharakteristiken, die am unmittelbarsten mit einer emotionalen Erregung zusammenhängen, der Grad des Vorliegens einer konstanten Tonhöhe, die Unregelmäßigkeit des Tempos, des Rhythmus und anderer Sprechmusterindikatoren sind.
Insbesondere verwendet der Algorithmus der vorliegenden Erfindung eine Kombination von mindestens zwei und vorzugsweise mehr der folgenden Sprechparameter-Kategorien:

• Mittlere Pausenlänge und/oder Pausenfrequenz
• Kurze mittlere Länge von stillen Abschnitten und/oder Frequenz von kurzen stillen Abschnitten
• Mittlere Länge von Segmenten mit gleicher Tonhöhe und/oder Frequenz von Segmenten mit gleicher Tonhöhe
• Mittlere Länge von Segmenten mit steigender Tonhöhe und/oder Frequenz von Segmenten mit steigender Tonhöhe und/oder mittlere Länge von Segmenten mit fallender Tonhöhe und/oder Frequenz von Segmenten mit fallender Tonhöhe.
• Amplitudendispersion innerhalb von Sprachsegmenten mit gleicher Tonhöhe

Mit „Pausen" sind relativ lange stille Abschnitte beim Sprechen gemeint, wobei die Pausen beispielsweise Unterbrechungen beim Sprechen von typischerweise etwa 0,25 bis 1,25 Sekunden sind, die üblicherweise zwischen Sätzen auftreten.
Mit „kurze stille Abschnitte" sind Unterbrechungen mit einer Dauer von weniger als etwa 0,25 Sekunden gemeint. Kurze stille Abschnitte sind die stillen Abschnitte, die typischerweise zwischen Worten und Silben auftreten.
„Abschnitte gleicher Tonhöhe" sind kontinuierliche Sprachsegmente, die dadurch gekennzeichnet sind, daß sie eine relativ stabile Tonhöhe aufweisen, d.h. daß die Tonhöhe innerhalb vorgegebener Toleranzen variiert.
Im Gegensatz dazu sind „Segmente mit steigender und fallender Tonhöhe" Segmente, die durch einen kontinuierlichen und definierten Anstiegs- oder Abfallstrend der Tonhöhe gekennzeichnet sind.
Die Bestimmung emotionaler Erregung mit einem hohen Gewißheitsgrad macht es erforderlich, daß eine Kombination von mindestens zwei (vorzugsweise mehr) der obigen Parameter gleichzeitig von nicht-emotionalen Werten abweicht. Die Entscheidung, ob der Proband tatsächlich emotionale Erregung zeigt, kann jedoch vorzugsweise auch vom Grad der Abweichung jedes Parameters abhängig gemacht werden, wobei Bereich und Werte, die eine Regelmäßigkeit kennzeichnen, für jeden Parameter mittels Analyse großer Proben von Sprachdaten ermittelt werden, die von der allgemeinen Bevölkerung stammen.
1 zeigt ein Blockschema einer Vorrichtung zum Detektieren emotionaler Erregung, die gemäß einer Ausführungsform der vorliegenden Erfindung gebaut und betätigbar ist. Die Vorrichtung umfaßt eine Stimmeingabeeinheit 10, eine Stimmabtast- und -digitalisiereinheit 12, eine Vorverarbeitungseinheit 14, eine Hauptverarbeitungseinheit 16 und eine Hauptindikatoren-Ausgabeeinheit 18. Die Stimmeingabeeinheit 10 kann jede Vorrichtung sein, die Daten der menschlichen Stimme in beliebiger Form trägt – ein Mikrofon, ein Schnurtelefon, ein schnurloses Telefon oder ein Mobiltelefon, eine beliebige Audiowiedergabevorrichtung (wie z.B. ein Tonbandgerät, ein CD-Spieler), digitalisierte Stimmdateien, eine Internet-Verbindung (Voice over IP, Kabel, Satellit oder jedes andere Verfahren). Die Stimmabtast- und -digitalisiereinheit 12 kann eine Computer-Soundkarte, ein Spezial-DSP-Chip oder eine andere Abtast- und Digitalisiervorrichtung sein.
Das Verfahren zur Feststellung von emotionaler Erregung gemäß der vorliegenden Erfindung ist folgendes (mit gewissen Variationen zwischen unterschiedlichen Ausführungsformen der Vorrichtung): Das Ablaufschema in 2 zeigt den Vorverarbeitungsschritt im Detail, und das Fließschema in 3 zeigt den Hauptverarbeitungsschritt im Detail.
(a) Vorverarbeitung:
Die Vorverarbeitungsfunktion dient zur Vorbereitung der Rohdaten für die eigentliche Verarbeitung. Insbesondere dient sie dazu, Tonhöhen- und Amplitudenparameter für jeden Sprachblock einer vordefinierten Länge zu gewinnen. Der Prozessor ist eine CPU-Einheit, bei der es sich um die CPU eines PC handeln kann, oder er kann ein spezieller DSP-Chip oder tatsächlich jede andere geeignete Verarbeitungsvorrichtung sein. Die Vorverarbeitung umfaßt die folgenden Verfahrensschritte, die von Fachleuten auf dem Gebiet der Signalverarbeitung weitgehend anerkannt sind (2):

• Gewinnen digitalisierter Stimmproben (Block 20);
• bei Bedarf Trennung eines Gruppengesprächs in einzelne Proben von Stimmkanälen. Wenn die Stimmeingabe beispielsweise ein Telefongespräch ist, wird dieses vorzugsweise in zwei Stimmkanäle aufgeteilt, deren jeder einen anderen Sprecher wiedergibt, möglicherweise durch getrenntes Abtasten mit einem Signal, das zum Beispiel über die Sprechmuschel eines der Telefone erhalten wird (Block 22). Offensichtlich unterscheiden sich die Pausen und die Längen von Phrasen im Dialog merklich von denen beim Monolog, und diese Unterschiede sind gewürdigt und berücksichtigt;
• Normalisierung der Werte für die Muster – für beide Kanäle durchgeführt (Block 24);
• Datenfilterung – für beide Kanäle durchgeführt (Block 26);
• Rauschminderung – für beide Kanäle durchgeführt (Block 28);
• Einleitung der Segmentierung und Berechnung der Basisparameter für den ersten Kanal (Block 30);
• für den ersten Kanal werden eine Segmentierung nach Stille und Sprache sowie eine Unterteilung der Sprachsegmente in Blöcke (Block 32) durchgeführt;
• eine Autokorrelation (Block 34) zur Berechnung von Tonhöhe und Amplitude wird für den ersten Kanal durchgeführt;
• Wenn es zwei Sprecher gibt, werden die Schritte der Segmentierung und der Autokorrelation (Blöcke 30, 32, 34 oben) nun für den zweiten Stimmkanal durchgeführt, sofern dieser vorhanden ist (Blöcke 36 und 38).

Die Ausgangssignale der Vorverarbeitungsschritte sind Sequenzen von Sprachsegment-Blöcken, die dadurch gekennzeichnet sind, daß sie Tonhöhen- und Amplitudenwerte pro Block sowie Längen für Stille- und Pausensegmente aufweisen.
(b) Verarbeitung:
Das Hauptverarbeitungsverfahren liefert einen Hinweis auf emotionale Erregung. Es kann mit demselben CPU-Prozessor durchgeführt werden, in dem die Vorverarbeitung durchgeführt wurde, oder alternativ auf einer anderen CPU-Einheit. Die Verarbeitungseinheit kann die CPU eines PC, ein Spezial-DSP-Chip oder jede andere geeignete Verarbeitungsvorrichtung sein. Das Verarbeitungsverfahren umfaßt für jeden Kanal die folgenden Verarbeitungsschritte (3):

• Auswählen eines kurzen Sprachsegmentes, typischerweise drei bis sechs Sekunden Sprache, zur Verarbeitung (Block 40).
• Berechnen pausenbezogener Parameter des Sprachsegmentes, einschließlich der durchschnittlichen Anzahl von Pausen pro Sekunde und der durchschnittlichen Pausenlänge (Block 42).
• Berechnen Stille-bezogener Parameter des Sprachsegmentes, einschließlich der durchschnittlichen Anzahl von stillen Abschnitten pro Sekunde und der durchschnittlichen Länge der stillen Abschnitte (Block 43).
• Bestimmen, welche Segmentsequenzen von Blöcken Segmentsequenzen sind, die Blöcke mit gleicher Tonhöhe aufweisen, durch Markieren der aufeinanderfolgenden Blöcke, die eine relativ (d.h. innerhalb akzeptabler Toleranzen) konstante Tonhöhe aufweisen (Block 44).
• Bestimmen, welche Segmentsequenzen von Blöcken Tendenzen steigender oder fallender Tonhöhe zeigen (Block 46).
• Berechnen der sekundären Tonhöhenparameter des Sprachsegments, wie der durchschnittlichen Anzahl pro Sekunde und der durchschnittlichen Länge von Perioden mit steigender, fallender und gleichbleibender Tonhöhe und der Amplitudenverteilung von Perioden mit gleicher Tonhöhe (Block 47).
• Klassifizieren des verarbeiteten Sprachsegmentes in eine von mehreren Kategorien typischer Parameterbereiche, um Segmente mit unterschiedlichen Sprachgrößen zu differenzieren (Block 48).
• Bestimmen des Indikators für emotionale Erregung im Sprachsegment. Dieser Indikator beruht auf dem Vergleich der berechneten Stimmparameter mit vordefinierten Werten, die nicht-emotionale Sprache wiedergeben, und der Bewertung der Kombination von Unregelmäßigkeiten (Block 50). Wenn ein zweiter Kanal vorhanden ist, d.h. Proben von zwei Teilnehmern in einem Gespräch (Blöcke 52 und 54) genommen werden, werden die gleichen Verfahrensschritte 40 bis 50 an der Probe des zweiten Kanals durchgeführt.
• Das Verfahren umfaßt vorzugsweise auch eine Berechnung eines Zuverlässigkeitsgrades – basierend auf einer Kombination mehrerer Faktoren, typischerweise einschließlich der Qualität des Stimmsegmentes (Rauschpegel, Größe der erfaßten Daten, Qualität der erfaßten Daten), der Signifikanz der Entscheidung über emotionale Erregung (Anzahl beteiligter Parameter, Abweichungsgrad jedes Parameters), der Übereinstimmung der spezifischen Segmentergebnisse mit den vorhergehenden Sprachsegmenten (emotionale Änderungen sollten hinsichtlich der Anzahl der Änderungen, ihrer Intensität, ihrer Länge und dem Wechsel zwischen Emotionen in einem bestimmten Zeitraum vernünftigen Mustern folgen).
• Musterverarbeitung: Die Verarbeitung kann eine weitere Schicht umfassen, die gewisse emotionale Muster detektiert, welche sich im Laufe der Zeit oder im Vergleich mit anderen Ergebnissen zeigen. Beispielsweise ermöglicht beim Analysieren eines Gesprächs ein Vergleich der emotionalen Zustände der beiden Sprecher die Detektion von Mustern in der zwischenmenschlichen Kommunikation, wie z.B. Zuneigung, Gleichgültigkeit, Höflichkeit, Gesprächsatmosphäre und Verlauf.

(c) Ausgang:
(1, Block 18): Die Emotionsmeßergebnisse können je nach der verwendeten spezifischen Gerätekonfiguration und gemäß der jeweiligen Anwendung an verschiedene Ausgänge gesendet werden. Normalerweise wird das Ausgangssignal an die Echtzeit-Anzeige eines Benutzers (visuell, stimmlich oder textlich) gesendet. Es kann einem Fernnutzer über jede Art von Netzwerk berichtet und in jeder) Art von Ausgabe- oder Speichergerät oder Datei protokolliert oder gespeichert werden.
5. Vorrichtung und mögliche Anwendungen
Beispielshalber werden zwei Grundmodelle für Vorrichtungen zur Durchführung des Patentes vorgestellt, wobei jedoch auch andere geeignete Vorrichtungen alternativ dazu eingesetzt werden können:
(a) Eine kleine, mobile DSP-Chip-basierte Einheit:
Diese Vorrichtung kann als kleine mobile Einheit zur Echtzeit-Detektion oder Offline-Analyse emotionaler Erregung dienen. Sie kann als Einzelgerät bei direkten zwischenmenschlichen Wechselwirkungen verwendet werden. Alternativ dazu kann sie an Eingabe- oder Ausgabegeräte, wie z.B. Computer, Audiowiedergabegeräte, Schnurtelefone oder schnurlose Telefone oder Mobiltelefone, elektronische Personal Organizer, Internet oder jedes andere Netzwerk, angeschlossen werden, um verschiedene lokale oder entfernte Stimmeingaben zu erhalten und verschiedene lokale oder entfernte Ausgangssignale anzuzeigen oder zu berichten. Sie kann auch als Hardware in andere Geräte, wie z.B. Schnurtelefone, schnurlose Telefone oder Mobiltelefone, Computerspiele, Spielzeuge, Computer oder jedes andere elektronische Gerät, integriert werden. Die Vorrichtung umfaßt ein Mikrofon (oder eine andere Eingabeschnittstelle), einen digitalen Abtaster, einen Prozessor und eine Anzeige (oder eine andere Ausgabeschnittstelle).
(b) Ein Software-basiertes Werkzeug.
Diese Vorrichtung kann als computerbasiertes Werkzeug zur Echtzeit-Detektion oder zur Offline-Analyse von emotionaler Erregung dienen. Sie kann als unabhängiges Software-Werkzeug zur Analyse digitaler Stimmdateien verwendet werden. Alternativ dazu kann sie über die Computer-Schnittstellen mit einem beliebigen Eingabe-/-Ausgabegerät verbunden werden, um ein lokales oder entferntes Stimmeingabesignal zu gewinnen und auf verschiedenen lokalen oder entfernten Ausgabegeräten, wie Mikrofonen, Audio-Wiedergabegeräten, Schnurtelefonen oder schnurlosen Telefonen oder Mobiltelefonen, über das Internet oder ein anderes Netzwerk, andere Computer oder ein anderes elektronisches Gerät anzuzeigen oder zu melden. Das Software-Werkzeug kann auch als Untersystem in ein anderes System integriert werden. Solche Systeme enthalten beispielsweise Call Center-/Kontakt-Center-Software oder -Hardware, die Gespräche überwacht, aufzeichnet oder analysiert, verschiedene Situations- und Personentrainer oder jedes Überwachungs-, Lehr- oder Feedback-System. Das Emotions-Softwarewerkzeug wird typischerweise in einer Computerumgebung installiert, die typischerweise ein Mikrofon (oder eine andere Eingabeschnittstelle), eine Abtast- und -digitalisiereinheit, einen Prozessor, eine Anzeige (oder eine andere Ausgabe-Schnittstelle) und jede andere relevante externe Schnittstelle enthält.
Es versteht sich, daß die vorliegende Erfindung einen sehr breiten Bereich möglicher Anwendungen und Einsätze hat. Einige der Möglichkeiten sind nachfolgend lediglich beispielhalber aufgeführt. Die Verwendung der vorliegenden Erfindung ist jedoch nicht auf die hier beschriebenen Anwendungen beschränkt.
Die Emotionsüberwachung kann dazu verwendet werden, Marketing, Verkäufe, Dienstleistungen und Beziehungen mit Kunden, insbesondere in der Umgebung eines Call-Centers, zu verbessern. Überprüfung, Feedback und Überwachung der Emotionen bei Interaktionen bezüglich Dienstleistungen/Verkäufen können in einer Echtzeitumgebung sowie mittels Offline-Analyse implementiert werden. Die Überwachung kann mit beiden oben beschriebenen Geräten implementiert werden: Sie kann als Software-Tool in andere Call-Center-Produkte, wie z.B. Aufzeichnungs-Tools, CRM (Customer Relation Management)-Produkte, Trainings-Tools oder E-Commerce-Software, integriert werden. Sie kann als unabhängiges Software-Tool im Call-Center, in CRM- oder E-Commerce-Umgebungen installiert und auch in verschiedene Hardwarevorrichtungen in diesen Umgebungen als DSP-Chip-basierte Einheit integriert werden. Eine kleine DSP-Chip-basierte Einheit kann auch als unabhängige kleine Einheit zur Überwachung von direkten Wechselwirkungen zwischen Verkäufer und Kunden verwendet werden.
Die Emotionsüberwachung kann dazu verwendet werden, das Ausbildungsverfahren für verschiedenes berufliches Personal zu verbessern, indem das Bewußtsein für emotionale sowie nicht-emotionale verbale Muster, wie sie über die Stimme eines Sprechers ausgedrückt werden, verbessert wird. Zusätzlich kann das Überwachungs-Werkzeug zu Demonstrationszwecken (Analyse von Sprachsegmenten mit unterschiedlichen Emotionen und unterschiedlichen Emotions-Ausdrucksmustern) und zum Trainieren der Kontrolle des Emotionsausdrucks (Feedback über die Emotionen eines Benutzers plus Belohnung für das Ändern der Emotion oder des Ausdrucksmusters) verwendet werden.
Die emotionale Überwachung kann als unterstützendes Werkzeug bei verschiedenen Personalführungsaufgaben, wie Vorstellungsgesprächen oder Verhandlungen, in Meetings oder einfach auch im Gespräch und am Telefon verwendet werden.
Das Überwachen von Emotionen kann als zusätzliches Werkzeug für psychologische Tests und zur Diagnose und Behandlung bestimmter Erkrankungen, einschließlich beispielsweise psychischer Erkrankungen, nützlich sein. Diese Überwachung kann während Echtzeit-Gesprächen oder bei einer Offline-Analyse eines aufgezeichneten Gesprächs durchgeführt und bei direkten Interaktionen, oder wenn eine Interaktion über das Telefon oder mittels Sprachtelekommunikation über das Internet erfolgt, eingesetzt werden.
Auch in der Werbung kann man von der emotionalen Überwachung profitieren, da sie das Verfahren zur Messung und zur Bewertung des Verhaltens von Personen mittels Fragebögen, Fokussiergruppen und anderen Verfahren, deutlich aufwertet.
Die emotionale Überwachung kann zur Unterstützung einer Sprachtherapie und dazu verwendet werden, die Entspannung zu erhöhen und größere Kontrolle über positive und negative Gefühlszustände zu erreichen. Die Änderung des Gefühlszustandes kann entweder als direktes Ergebnis eines verstärkten Bewußtseins oder durch ein Verfahren, das einem Biofeedback-Mechanismus entspricht, erreicht werden. Eine wichtige Anwendung kann darin bestehen, die zahlreichen Programme zu unterstützen, die auf eine Verringerung von gewalttätigem Verhalten bei Kindern und Erwachsenen abzielen, wobei die Überwachung dazu beitragen kann, Muster verbal ausgedrückter Wut zu zeigen und zu ändern.
Der Einsatz der Emotionsüberwachung kann Computer- und Elektronikspielen, und zwar sowohl Lehr- wie auch Freizeitprogrammen, eine zusätzliche Qualität verleihen. Die Emotionsüberwachung kann auch Teil von Spielwaren und Spielen sein, die mit einem Kind interagieren und ihm seinen emotionalen Zustand wiederspiegeln.
Die Emotionsüberwachung gemäß der vorliegenden Erfindung kann auch dazu eingesetzt werden, die Spracherkennung bei verschiedenen Anwendungen zu verbessern und die Interaktion zwischen einem Computer oder Roboter und seinem Benutzer zu verstärken, indem das elektrische Gerät auf die Gefühlszustände der Menschen in seiner Umgebung reagieren kann.
Die Emotionsüberwachung kann auch als Werkzeug zum Erkennen gewisser mentaler Zustände mit deutlichen Stimm-Charakteristiken, wie z.B. Ermüdung, eingesetzt werden.
Es versteht sich, daß die Erfindung nicht auf die oben lediglich beispielhalber gegebene Beschreibung beschränkt ist. Vielmehr ist die Erfindung ausschließlich durch die nachfolgenden Ansprüche eingeschränkt.

Claims

Verfahren zum Feststellen emotionaler Erregung eines Probanden durch Sprechanalyse, das die folgenden Schritte umfaßt: Gewinnen eines Sprechmusters; Vorverarbeiten des Sprechmusters zu stillen und aktiven Sprachsegmenten und Unterteilen der aktiven Sprachsegmente in Sequenzen gleichlanger Blöcke, wobei die Blöcke primäre Sprechparameter haben, die Tonhöhen- und Amplitudenparameter einschließen; Herleiten mehrerer ausgewählter sekundärer Sprechparameter, die Charakteristiken von Tendenzen gleichbleibender Tonhöhe, steigender Tonhöhe und fallender Tonhöhe in den Sequenzen von Blöcken anzeigen; Vergleichen der sekundären Sprechparameter mit vordefinierten, Probandenunabhängigen Werten, die eine nicht-emotionale Sprechweise darstellen, um ein Verarbeitungsergebnis zu erzeugen, das emotionale Erregung anzeigt, und das erzeugte Verarbeitungsergebnis an eine Ausgabevorrichtung auszugeben, wobei die mehreren ausgewählten sekundären Sprechparameter aus der folgenden Liste ausgewählt sind: (a) durchschnittliche Länge kurzer stiller Abschnitte und/oder Frequenz kurzer stiller Abschnitte; (b) durchschnittliche Länge von Segmenten gleichbleibender Tonhöhe und/oder Frequenz von Segmenten gleichbleibender Tonhöhe; (c) durchschnittliche Länge von Segmenten steigender Tonhöhe und/oder Frequenz von Segmenten steigender Tonhöhe und/oder durchschnittliche Länge von Segmenten fallender Tonhöhe und/oder Frequenz von Segmenten fallender Tonhöhe und (d) Durchschnittsamplitudenstreuung innerhalb von Sprachsegmenten gleichbleibender Tonhöhe.
Verfahren nach Anspruch 1, wobei der Schritt des Herleitens des weiteren das Herleiten mehrerer ausgewählter sekundärer Sprechparameter einschließt, die Pausen- und Stille-Charakteristiken des zu analysierenden Sprechmusters anzeigen.
Verfahren nach Anspruch 1 oder 2, welches das Analysieren von Unregelmäßigkeiten hinsichtlich Tempo und Rhythmus, Tonhöhe und Amplitude des zu analysierenden Sprechmusters einschließt.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die mehreren ausgewählten sekundären Sprechparameter weiterhin die durchschnittliche Pausenlänge und/oder Pausenfrequenz einschließen.
Verfahren nach einem der Ansprüche 1 bis 4, wobei der Schritt des Gewinnens eines Sprechmusters den Schritt des Eingebens einer digitalisierten Stimmdatei umfaßt.
Verfahren nach einem der Ansprüche 1 bis 4, wobei der Schritt des Gewinnens eines Sprechmusters den Schritt des Erfassens von Sprechproben und des Abtastens und Digitalisierens der Sprechproben in einer Stimmabtast- und -digitalisiereinheit zum Erzeugen einer digitalisierten Stimmdatei umfaßt.
Verfahren nach einem der Ansprüche 1 bis 6, wobei der Schritt des Vorverarbeitens einschließt: Gewinnen digitalisierter Stimm-Muster, Normalisieren der Stimm-Muster, Datenfilterung, Rauschunterdrückung, Segmentieren der Stimm-Muster in Stille- und Sprachsegmente, Unterteilen der Sprachsegmente in Blöcke und Verarbeiten der Blöcke durch Autokorrelation, um Tonhöhen- und Amplituden-Sprechparameter blockweise zu berechnen.
Verfahren nach einem der Ansprüche 1 bis 7, das zum Analysieren eines Sprechsignals eingerichtet ist, das mehrere in Wechselwirkung stehende Stimmen enthält, wobei es des weiteren umfaßt: Trennen der in Wechselwirkung stehenden Stimmen in separate Stimmkanäle; Durchführen einer Muster-Normalisierung für jeden interessierenden Kanal; Durchführen einer Datenfilterung für jeden interessierenden Kanal; Durchführen einer Rauschunterdrückung für jeden interessierenden Kanal; Durchführen einer Stille- und Sprach-Segmentierung und Unterteilen der Sprachsegmente in Blöcke für jeden interessierenden Kanal, und Autokorrelationsverarbeitung, um Tonhöhen- und Amplituden-Sprechparameter blockweise für jeden interessierenden Kanal zu berechnen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Herleitens umfaßt: Markieren eines Sprachsegmentes einer vordefinierten Länge zum Verarbeiten; Berechnen von auf Pausen bezogenen Parametern für das Sprachsegment; Berechnen von auf Stille bezogenen Parametern für das Sprachsegment; Zusammenfügen von Blöcken zu Sequenzen von Blöcken, die als Sequenzen von Blöcken mit Tendenzen steigender Tonhöhe und Sequenzen von Blöcken mit Tendenzen fallender Tonhöhe und Sequenzen von Blöcken mit Tendenzen gleichbleibender Tonhöhe kategorisiert werden; Berechnen von auf die Tonhöhe bezogenen Parametern innerhalb des Sprachsegmentes, wobei die auf die Tonhöhe bezogenen Parameter aus der Liste von Frequenz und durchschnittlicher Länge von Sequenzen von Blöcken, die dadurch gekennzeichnet sind, daß sie Tendenzen steigender, fallender oder gleichbleibender Tonhöhe haben, und Durchschnittsamplitudenstreuung von Sequenzen von Blöcken, die gleichbleibende Tonhöhen haben, ausgewählt sind, und Einteilen des Sprachsegmentes in eine von mehreren Kategorien eines typischen Parameterbereichs.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Vergleichens der sekundären Sprechparameter mit vordefinierten, Probandenunabhängigen Werten, die eine nicht-emotionale Sprechweise darstellen, um ein Verarbeitungsergebnis zu erzeugen, das emotionale Erregung anzeigt, das Vergleichen wenigstens zweier sekundärer Stimmparameter-Kategorien mit vordefinierten Werten einschließt, die eine nicht-emotionale Sprechweise darstellen, wobei die Kategorien aus der folgenden Liste ausgewählt sind: (a) durchschnittliche Länge von Pausen und/oder Frequenz von Pausen; (b) durchschnittliche Länge kurzer stiller Abschnitte und/oder Frequenz kurzer stiller Abschnitte; (c) durchschnittliche Länge von Segmenten gleichbleibender Tonhöhe und/oder Frequenz von Segmenten gleichbleibender Tonhöhe; (d) durchschnittliche Länge von Segmenten steigender Tonhöhe und/oder Frequenz von Segmenten steigender Tonhöhe und/oder durchschnittliche Länge von Segmenten fallender Tonhöhe und/oder Frequenz von Segmenten fallender Tonhöhe und (e) Durchschnittsamplitudenstreuung innerhalb von Sprachsegmenten gleichbleibender Tonhöhe.
Verfahren nach einem der vorhergehenden Ansprüche, das des weiteren das Berechnen eines Zuverlässigkeitsgrades auf Basis wenigstens eines Faktors umfaßt, der aus der folgenden Liste ausgewählt ist: Qualität des Sprachsegments; Signifikanz der Entscheidung über emotionale Erregung und Übereinstimmung spezifischer Segmentergebnisse mit Ergebnissen früherer Sprachsegmente.
Verfahren nach Anspruch 11, wobei die Qualität des Sprachsegments auf Basis von Rauschpegel, Größe der abgetasteten Daten und Qualität der abgetasteten Daten bestimmt wird.
Verfahren nach Anspruch 11, wobei die Signifikanz der Entscheidung über emotionale Erregung auf Basis einer Anzahl beteiligter Parameter und eines Grades der Abweichung innerhalb jedes Parameters bestimmt wird.
Verfahren nach einem der vorhergehenden Ansprüche, das des weiteren eine Musterverarbeitung umfaßt, um emotionale Muster zu erfassen, die entlang einer Zeitachse deutlich werden.
Vorrichtung mit Mitteln, die zum Ausführen des Sprechanalyseverfahrens nach Anspruch 1 eingerichtet sind, wobei die Vorrichtung umfaßt: eine Stimmeingabeeinheit; eine Vorverarbeitungseinheit, die Stimm-Muster von der Stimmeingabeeinheit vorverarbeitet; eine Hauptverarbeitungseinheit, die die vorverarbeiteten Stimm-Muster verarbeitet und daraus emotionale Erregung erfaßt, und eine Hauptindikatoren-Ausgabeeinheit, die eine Anzeige emotionaler Erregung ausgibt.
Vorrichtung nach Anspruch 15, wobei die Stimmeingabeeinheit eine Stimmerfassungseinheit und eine Stimmabtast- und -digitalisiereinheit enthält, die mit der Stimmerfassungseinheit gekoppelt ist, um erfaßte Stimmeingabe abzutasten und zu digitalisieren.
Vorrichtung nach Anspruch 15 oder 16, wobei die Stimmeingabeeinheit wenigstens eine der folgenden Einrichtungen enthält: ein Mikrofon, eine Schnittstelle zu einer Audio-Wiedergabeeinrichtung, eine Schnittstelle zu einem Schnurtelefon, einem schnurlosen Telefon oder einem Mobiltelefon, eine Schnittstelle zum Internet oder einem anderen Netzwerk, eine Schnittstelle zu einem Computer, eine Schnittstelle zu einem elektronischen Personal Organizer oder zu jedem beliebigen anderen elektronischen Gerät oder eine Schnittstelle zu einem Spielzeug.
Vorrichtung nach Anspruch 16, wobei die Stimmabtast- und -digitalisiereinheit unter einer Soundkarte oder einer Stimmabtast- und -digitalisiereinheit auf Basis eines DSP-Chips ausgewählt ist.
Vorrichtung nach Anspruch 15, wobei die Hauptindikatoren-Ausgabeeinheit unter einer lokalen Ausgabeeinrichtung, einer Anzeigeeinrichtung, einem Lautsprecher, einer Datei, einer Speichereinheit oder einer Überwachungseinrichtung oder einer Schnittstelle zu einem entfernten Computer, zum Internet, zu einem anderen Netzwerk, zu einem Schnurtelefon, einem schnurlosen Telefon oder einem Mobiltelefon, zu einem Computerspiel, zu einem Spielzeug, zu einem elektronischen Personal Organizer oder zu jedem beliebigen anderen elektronischen Ausgabegerät ausgewählt ist.
Vorrichtung nach einem der Ansprüche 15 bis 19, wobei alle Einheiten auf einer kleinen mobilen Einheit auf Basis eines DSP-Chips installiert sind.
Vorrichtung nach einem der Ansprüche 15 bis 20, wobei einige der Einheiten physisch von anderen Einheiten entfernt sind und die Vorrichtung des weiteren eine Schnittstelle umfaßt, die eine Datenkommunikation zwischen den Einheiten ermöglicht.
Vorrichtung nach einem der Ansprüche 15 bis 21, wobei die Vorverarbeitungs- und die Verarbeitungseinheit in einem Softwarewerkzeug enthalten sind, das in eine externe Quelle für digitalisierte Stimmeingabe und in eine externe Ausgabeeinrichtung integrierbar ist.